Business Intelligence y Gestión Documental - V2

COSIM TI – CAPACITACION PROFESIONAL – BIBLIOTECA VIRTUAL
Business Intelligence y Gestión

Documental
Capítulo 1.- De los datos a la

información
OBJETIVOS
- Conocer las fuentes de datos en la empresa y el problema de acceso a la información.
- Contextualizar las soluciones de Business Intelligence y su aplicación al soporte de la toma de

decisiones en las organizaciones.
- Situar los sistemas Business Intelligence en el contexto de la información y las

organizaciones.
1.1 Fundamentos de Business

Intelligence
1.1.1 Definición de Business Intelligence
Cuando se habla de Business Intelligence (BI), una de las definiciones globales

que se acostumbran a dar es: Business Intelligence significa emplear los datos
recopilados por una organización con el fin de soportar una mejor toma de
decisiones de negocio, accediendo, analizando y cubriendo nuevas
oportunidades.
También se puede definir al Bussines Intelligence como:
"La combinación entre la recolección de información, su almacenamiento y el

manejo del conocimiento con herramientas de análisis con la finalidad de
proporcionar información compleja e importante para los encargados de la
planeación y los responsables de la toma de decisiones".
Solomon Negash, 2003.
Dentro de esta definición está presente la idea que los sistemas de Bussines
Intelligence se proveen de informacíon relevante para la toma de decisiones, al
momento adecuado y en la forma correcta de tal manera que los responsables
1
de la toma de decisiones puedan utilizarlo. La meta principal del Bussiness

Intelligence es la reducción del tiempo y mejoramiento de la calidad de la
información provista a los procesos de toma de decisiones facilitando el trabajo
de los reponsables de la toma de decisiones.
Muchos de los conceptos de Business Intelligence no son nuevos, pero han

evolucionado y han sido refinados basándose en la experiencia adquirida en
los primitivos sistemas host corporativos más recientemente en las aplicaciones
de Data Warehouse.
Dada la creciente competencia presente en todos los entornos de negocio es

vital que las empresas puedan disponer de un acceso rápido y efectivo a la
información de la que disponen para un amplio rango de usuarios. Esto es
fundamental de cara a asegurar la supervivencia en el nuevo milenio; la
solución para este asunto es un sistema de Business Intelligence, el cual
proporciona una serie de tecnologías y productos cuyo fin es proporcionar a los
usuarios la información que necesitan en cada momento, con el fin de que
puedan responder a sus preguntas de negocio y tomar decisiones tácticas y
estratégicas.
1.1.2 ¿Pero qué hace el Business Intelligence?
Siendo el Business Intelligence parte fundamental en la toma de decisiones

estratégicas implica un marco muy extenso en lo que se refiere al entorno
corporativo. Es por esto que es muy importante poder clasificar o agrupar las
aplicaciones de Business Intelligence de acuerdo al entorno de las
organizaciones y el impacto que las decisiones estratégicas tienen en el
desempeño global de las organizaciones. Una encuesta realizada por el grupo
Gartner agrupa y prioriza las aplicaciones de Business Intelligence de la
siguiente manera:
• Aquellas que están directamente involucradas en la administración del

desempeño corporativo.
• Las relacionadas con los clientes y monitoreo de las actividades del
negocio.
• También están las aplicaciones de Business Intelligence pre-fabricadas;
aquellas que están diseñadas para operaciones específicas o
estrategias puntuales.
• Y por último aquellas que están involucradas con la administración de
los reportes resultantes de un proceso de Business Intelligence.
El haber dado un ranking a las aplicaciones de Business Intelligence nos lleva

a pensar que estas no son simplemente herramientas que sirven para generar
informes de la situación actual de las organizaciones y sus competidores o peor
aún como una herramienta para la toma de decisiones; el concepto está mas
allá de ser tan simple.
Business Intelligence es el resultado de un crecimiento continúo; éste se

alimenta de diferentes fuentes que en cada momento lo robustecen, por
ejemplo:
2
• Data Warehouses como repositorios de datos hace de esta una fuente

de información muy importante en donde se tiene información
previamente filtrada o precalculada de acuerdo a las necesidades de las
organizaciones.
• Los mejores desempeños que se tienen en la actualidad en lo que se
refiere a Hardware y Software hacen que las consultas sean más
rápidas y confiables.
• Las tecnologías de Internet hacen que el entorno de las herramientas de
Business Intelligence sean mucho mejores que las que se tenían
anteriormente.
En la figura 1.1 se puede ver claramente la diversidad de fuentes que tiene un

sistema de Business Intelligence.
Figura 1.1: Business Intelligence y su relación con otros sistemas de información1.
1
Fuente: Adaptado de Negash. (2004). Pág.179.
1.2 Información, sistemas de

información y Business Intelligence
1.2.1 La problemática actual del acceso a la información
Vemos que los modelos empresariales están sufriendo una profunda

transformación en los últimos años, los desafíos de los distintos sectores
económicos tienen en general como puntos comunes clientes cada vez más
exigentes, cambios cada vez más rápidos y una competencia cada vez más
fuerte. Para hacer frente a estos desafíos, más allá de planteamientos
reactivos, es preciso anticipar. Anticipar los cambios, las nuevas necesidades
de los clientes, anticipar respecto a la competencia, etc. Pero para que esta
anticipación sea eficaz hay que disponer de informaciones pertinentes. Todas
las empresas disponen datos que provienen de sus sistemas operacionales e
incluso del exterior; el problema de estas empresas es alcanzar los objetivos
definidos por los desafíos de su sector, sacando partido de los datos
accesibles.
3
Casi literalmente, la empresa actual se hunde bajo el aluvión de datos. Esta

sobre abundancia tiene como consecuencia directa un rechazo por la
saturación que produce. Sin embargo, los datos representan una mina de
informaciones. son una ventaja de la que la empresa debe sacar partido. Para
ello, resulta fundamental implementar una nueva informática de decisión para
obtener una mejor comprensión del valor de las informaciones disponibles,
definir indicadores de negocio pertinentes para facilitar la toma de decisiones
operativas y conservar el caudal histórico de la empresa.
Figura 1.2: El problema del acceso a la información.
Figura 1.3: Visión general de un Datawarehouse.
Debido a la diversidad de fuentes que alimentan a una solución de Business

Intelligence hace que sea más complejo el análisis de las informaciones. Estas
4
poseen en algunos casos una estructura dada por el mismo entorno que las
contiene, por ejemplo, una base de datos en donde las informaciones se
graban en forma de filas y columnas (tablas de datos) o en otros casos las
informaciones que procesa un sistema de Business Intelligence proviene de
fuentes que tienen una estructura diferente por ejemplo: e-mail, faxes, cartas,
etc. Para el primer caso en donde las informaciones presentan una estructura
se las conocen como fuentes de datos estructuradas; caso contrario se los
conocen como fuentes de datos semi-estructuradas.
Blumberg y Atre (2003)1 indican que el 60 % de los CIO´s de las compañías

consideran a los datos semi-estructurados como críticos para mejorar las
operaciones de las organizaciones y clave vital para el desarrollo de nuevos
negocios.
Adicionalmente Blumberg y Atre (2003) indican que no es fácil indagar

información en las fuentes de datos semi-estructuradas utilizando la tecnología
existente en las bases de datos convencionales ya que la variedad es bastante
amplia; entre las que se pueden citar están:
• Procesos de negocio
• E-mails
• Gráficos
• Archivos con imágenes
• Cartas
• Memos, noticias, etc
Blumberg y Atre (2003) indica que Merryl Linch estima que el 85% de toda la
información de los negocios existe en forma de datos semi-estructurados
comúnmente capturados en formato de hojas de cálculo, es decir, no se
encuentran almacenados bajo la estructura de una base de datos.
La figura 1.4 muestra la variedad de informaciones de entrada disponibles para

ofrecer la inteligencia necesaria para la toma de decisiones.
5
Figura 1.4: Entradas a los sistemas de Business Intelligence2.
1
BLUMBER, ROBERT; y, ATRE, SHAKU. (2003). The Problem with Unstructured Data. DM
Review Magazine.
http://dmreview.com/article_sub.cfm?articleId=6287. [Leído: 23 de marzo del 2006].
2
Fuente: Adaptado de Negash. (2004). Pág. 178.
1.2.2 La evolución de los sistemas de información
Inevitablemente, la primera pregunta que surge al describir los objetivos de los

sistemas de Business Intelligence es la relativa a su aportación a los sistemas
de información. Un sistema de información se define como un sistema que
recoge, almacena, procesa y distribuye información entre los diferentes
elementos que tenga el sistema y su entorno.
Los objetivos principales de un sistema de información son:
• Respuesta a eventos, énfasis en la transmisión, tratamiento sencillo.

• Proporcionar información de control.
• Intercambio de información con el entorno.
• Relaciones con el exterior, requerimientos comerciales y legales.
• Facilitar acceso y tratamiento de información para la toma de decisiones.
Figura 1.5: Funciones de un Sistema de Información.
1.2.2.1 Primera generación: Consultas e informes basados en host
Los primeros sistemas de información empleaban aplicaciones por lotes (batch)

para proporcionar a los usuarios de negocio la información que necesitaban. La
salida de estas aplicaciones necesitaba normalmente grandes volúmenes de
papel, sobre los que los usuarios tenían que buscar las respuestas concretas a
sus preguntas de negocio. La llegada de terminales de acceso más prácticos
facilitó mucho el acceso a la información pero, en general, estos sistemas eran
difíciles de manejar, requiriendo el acceso a bases de datos operacionales
complejas.
Esta primera generación de sistemas de información sólo podía ser

aprovechada por proveedores de información, como analista de información,
6
que tenían un conocimiento avanzado de acceso a datos, así como experiencia

en el manejo de ordenadores. A diferencia de los ejecutivos de negocio y los
directores que raramente eran capaces de usar estos primitivos sistemas.
Estos sistemas de información transaccionales eran aquellos sistemas que se

encargaban de manera especifica de procesar tanto las transacciones de
información provocadas por las interacciones formales entre el entorno y la
organización como las transacciones generadas en el seno de la organización.
1.2.2.2 Segunda generación: Data Warehousing
La segunda generación de los sistemas de información de negocio trajo

consigo la funcionalidad de los primitivos sistemas de Data Warehouse. Estos
Data Warehouse, o almacenes de información, tenían varias ventajas sobre los
sistemas de primera generación, tales como:
• Estaban diseñados para satisfacer las necesidades de los usuarios de

negocio, no las aplicaciones operacionales que registran el día a día de
la empresa.
• La información residente en un Data Warehouse está limpia y es
consistente, estando almacenada en un formato que los usuarios de
negocio pueden entender.
• Podían proporcionar información histórica y sumarizada a diferencia de
los sistemas operacionales que solo contenía el detalle de los datos
actuales.
• Las arquitecturas cliente/servidor proporciona a los usuarios del Data
Warehouse interfaces de usuario mejoradas, así como herramientas de
soporte a la decisión más potentes.
1.2.2.3 Tercera generación: Business Intelligence
Un Data Warehouse no constituye todavía una solución completa para las

necesidades de los usuarios de negocio. Una de las debilidades de muchas
soluciones de Data Warehouse es que a menudo se centran en la tecnología
en lugar que en las soluciones de negocio. Está comprobada la capacidad
tecnológica de las soluciones pero normalmente se necesita un esfuerzo
importante en cuanto a su implementación.
El punto importante aquí es que los productos de Data Warehouse raramente

vienen preempaquetados para áreas de negocio o aplicaciones específicas. En
este sentido, esta situación es muy parecida a la de los primeros tiempos de la
arquitectura cliente/servidor; inicialmente servía para desarrollar aplicaciones
operacionales pero rápidamente se enrumbó a aplicaciones y soluciones de
negocio; no simplemente más tecnología. La misma evolución ha sucedido en
los sistemas de información de negocio; es por esto sistemas de Business
Intelligence están orientados a suministrar soluciones de negocio
preempaquetadas no simplemente mejoras tecnológicas.
Otra característica relacionada con el Data Warehouse es que hace excesivo

hincapié en el aspecto constructivo, en lugar de dar relevancia a las
7
problemáticas de acceso a la información que contienen. Parece que el objetivo

de muchas empresas es simplemente construir un Data Warehouse y
proporcionar a los usuarios alguna herramienta de acceso a la información que
contiene.
Sin embargo, a no ser que la información en el Data Warehouse esté

claramente documentada, siendo su acceso fácil, la complejidad inherente al
sistema limitará el uso del Data Warehouse en los mismos niveles que los
sistemas de primera generación.
Los sistemas de Business Intelligence también son sistemas de decisorios pero

están en un grupo de sistemas decisorios más complejos. Se llaman sistemas
de información expertos que están diseñados para ayudar a resolver problemas
de decisión dentro de un dominio de aplicación muy limitado, simulando tareas
humanas de razonamiento y deducción, recomendando opciones y
presentando de explicaciones, procurando igualar y potenciar la eficacia de los
expertos humanos en el dominio de la aplicación.
1.2.3 Necesidad de los sistemas de Business Intelligence
Nos encontramos actualmente sumergidos en la era de la información. En

todos los sectores económicos, en todas las empresas, la información se
convierte en un elemento diferenciador, cuya correcta explotación aporta una
tremenda ventaja competitiva. Disponer de información útil, tenerla en mayor
abundancia que los competidores, tenerla preparada antes, disponer de ella en
el momento en que el usuario la necesite en un formato comprensible y
utilizable, éstos son los objetivos a lograr. Todas las técnicas y tácticas
utilizadas por los grandes estrategas se basan en la información de que
disponen. En ciertos sectores, algunos hablan incluso ya de la desinformación.
El ejemplo más significativo de esto se da en Internet, donde el contenido de
las páginas está adaptado en ocasiones al usuario conectado.
Las empresas recopilan enormes cantidades de datos en sus operaciones

diarias: datos sobre pedidos, inventario, cuentas, transacciones en los puntos
de venta y por supuesto datos relativos los clientes. Además, muchos negocios
acostumbran a adquirir datos a proveedores de información tales como
características sociodemográficas de los clientes, listas de buzón, etc. La
consolidación y el análisis efectivo de todos estos datos sin duda mejoran la
toma de decisiones de negocio, aportando una ventaja competitiva
considerable. Para esto es necesario considerar el contexto de la empresa
según tres ejes principales:
- La información1
- La empresa
- El mercado
8
Esto junto con la capacidad funcional y la cada vez mejor potencia de las
tecnologías, tanto del hardware como del software hacen que los tratamientos
pesados de la información algo posible y accesible.
En el análisis de los principales factores de cambio es conveniente insistir

particularmente sobre el nuevo papel preponderante de la información, y sobre
la evolución del mercado y su impacto en la empresa.
1
A lo largo del módulo, los términos dato e información se utilizan en muchas ocasiones de
forma intercambiable. Formalmente, la información se elabora a partir de la integración y
asimilación de varios datos. Sin embargo, en un sentido más amplio, se consideran datos e
información como el precedente de el conocimiento, sin contabilizar el orden de una forma
explícita.
1.2.4 Factores de cambio: La información
El ambiente del mundo de los negocios de hoy exige una aplicación cada vez
más eficiente de la información disponible. Business Intelligence genera un
conocimiento al negocio que se deriva de la correcta utilización de la
información generada dentro y fuera de la empresa. Business Intelligence es
una herramienta que pone a disposición de los usuarios la información correcta
en el lugar correcto generando una ventaja competitiva. Son ya muchas las
empresas que han implementado soluciones de Business Intelligence y se han
visto enormemente beneficiadas.
Nos encontramos actualmente sumergidos en la era de la información. En

todos los sectores económicos, en todas las empresas, la información se
convierte en un elemento diferenciador, cuya correcta explotación aporta una
tremenda ventaja competitiva. Disponer de información útil, tenerla en mayor
abundancia que los competidores, tenerla preparada antes, disponer de ella en
el momento en que el usuario la necesite en un formato comprensible y
utilizable, éstos son los objetivos a lograr. Todas las técnicas y tácticas
utilizadas por los grandes estrategas se basan en la información de que
disponen.
En ciertos sectores, algunos hablan incluso ya de la desinformación. El ejemplo

más significativo de esto se da en Internet, donde el contenido de las páginas
está adaptado en ocasiones al usuario conectado.
En una empresa, la información está constituida por una fuente principal y

fuentes externas. La fuente principal proviene del llamado sistema
transaccional que registra y soporta la operativa diaria del negocio.
Adicionalmente la información se completa con datos externos de la empresa
que en ocasiones un representan un 20% del total. Este número depende
fundamentalmente del sector de actuación de la empresa y del nivel de
9
competencia existente; además, cuanta mayor jerarquía tengan quienes toman

decisiones, más compararán y analizarán estas cifras externas respecto a las
provenientes del sistema transaccional.
Tanto respecto a la información externa como a la interna, actualmente se

presentan tres problemas fundamentales:
- La sobre abundancia de la información
- El hecho de que sea difícilmente accesible
- El hecho de que no sea selectiva
El tema de la sobre abundancia se acostumbra a ilustrar mediante la siguiente

observación:
"Se han producido más informaciones nuevas en los últimos treinta años que
en el transcurso de los cinco milenios que nos han precedido"
En cuanto a la accesibilidad y la selectividad de los datos, ciertas

estadísticas hablan que el 27% del tiempo de un directivo, como promedio, lo
pasó buscando información, accediendo a ella y dándole un formato adecuado.
Parece evidente que ganar algunos puntos sobre este porcentaje tiene efectos
directos sobre la productividad de una empresa.
Al momento de recopilar información es posible encontrarse con cuatro tipos de

información que se detalla a continuación:
• Fatal, es la información que no sirve de nada usualmente siempre se la

desecha.
• Interesante, aquella información que no sirve pero se cola y nos hace
perder tiempo.
• Útil, es la información que es fácil conseguir y de mucha utilidad.
• Crítica, es difícil de conseguir y nos es muy útil.
Pero el problema mostrado aquí es doble; por una parte, seleccionar la

información justa y útil y, por otra, referenciar esta información y almacenarla
correctamente para ser capaz de recuperarla el día que se necesite. El
beneficio de un sistema de decisión sólo será notable si la información es
creíble, integrada, disponible en la forma deseada por el usuario, en el
momento en que la necesite, sea cual sea el lugar donde se encuentre.
Cuestiones de interés que puede ayudar un BI a las organizaciones
¿Quiénes son los clientes más rentables? ¿Cómo retenerlos?

¿Cómo expandirse con nuevos productos, mercados y canales de
Algunas forma eficaz?
preguntas... ¿Cuáles son las ventajas por región, producto y época?
¿Cómo mejorar el nivel de servicio?
¿Cómo mejorar la eficiencia?
10
Baja disponibilidad de la información necesaria

Distintas fuentes de datos no consolidadas
Algunos
Acceso a la información en términos de negocio
problemas...
Identificación de los factores críticos que afectan a los resultados
futuros o pasados
Mejorar la operativa del negocio

Consolidar y homogeneizar las fuentes de información disponibles
Algunos
Ganar cuota de mercado
Objetivos...
Mejorar el servicio al cliente y retener a aquellos que son más rentables
Mejorar la eficacia de las campañas promocionales
En este sentido el problema de Internet es el más representativo. Internet sin

lugar a dudas es la mayor biblioteca mundial existente; pero mas que una
biblioteca, Internet es un repositorio caótico de información. Es probable que lo
que buscamos se encuentre allí, pero el problema radica en la falta de
organización de los caminos de acceso y el filtrado inteligente de la información
dificultando enormemente las tareas de búsqueda y recuperación. Cabe decir
que, dentro de las recientes aplicaciones de business intelligence a este medio,
se están desarrollando nuevos mecanismos que agilizan enormemente la
búsqueda y asimilación de información.
1.2.5 Factores de cambio: La empresa y su mercado
La empresa construye un sistema de decisión con el fin de mejorar su

rendimiento. Los sistemas de business intelligence deben permitirle ser activa
en su mercado, es decir, decidir y anticipar en función de la información
disponible y capitalizar sobre sus experiencias. Cada empresa se sitúa en un
mercado, en un sector económico. De manera general todos los mercados
están en plena evolución y cada vez están más cerrados en cuanto a
competencia y crecimiento de tal manera que es necesario utilizar la mayor
cantidad de estrategias para crecer o para sobrevivir.
Los factores relacionados con estas evoluciones son la competencia, la

competitividad y la complejidad. Es aquí donde los sistemas de Business
Intelligence deben permitirle a las empresas ser activas en su mercado, es
decir, decidir y anticipar en función de la información disponible y capitalizar
sobre sus experiencias.
Por esto hay que tener considerar fuerzas externas dentro del Business
Intelligence, la competencia y el consumidor.
1.2.5.1 La competencia
La competencia, tal como se vive hoy en las empresas, necesita comparar sin
cesar el producto propio con el de los demás ofertantes. La sola visión del
producto a través de las informaciones internas disponibles ya no basta.
Hemos pasado de una orientación al producto a una orientación al mercado y
está visión de la competencia es fundamental en la actualidad.
11
El objetivo es simplemente hacerlo mejor que los competidores; los cuatro ejes
principales de mejora de la posición con respecto a la competencia son:
- Una mejor rentabilidad, que precisa a menudo inversiones más costosas.
- Una mayor rapidez en todas las etapas del ciclo de vida de un producto
(diseño, realización, cadena de producción, etc).
- Más innovación en los productos y los servicios asociados.
- Un acceso más fácil para los consumidores a los productos y a los servicios.
En el marco de los sistemas de Business Intelligence, el aspecto de la

competencia se trata mediante la integración en el sistema de decisión1 de
datos externos introducidos o adquiridos que caracterizan el mercado y la
competencia. Esta integración es, como puede intuirse, una fase muy compleja;
el acercamiento entre los datos externos y los datos internos a menudo
presenta graves problemas semánticos que normalmente son difíciles, o
incluso imposibles, de resolver.
1
Aunque todavía no se ha dado una definición precisa de lo que se entiende por un sistema de
decisión, la idea es presentarlo en este momento como un conjunto de herramientas de soporte
a la toma de decisiones, sin entrar de momento en mayor detalle.
1.2.5.2 El consumidor
La personalización es la tendencia actual, que se añade a las cuatro

tendencias sucesivas que han ido apareciendo en el tiempo: los precios, la
calidad, el tiempo y los servicios.
En los años de postguerra, la economía estaba orientada al producto; tal es así

que las empresas no tenían problemas para vender lo que producían; se daba
más prioridad a la producción en masa para aumentar las ventas. La
preocupación siguiente, en los años setenta, era mejorar la calidad de los
productos; el consumidor quería el producto y la calidad. En aquellos años,
aparecieron las primeras ideas sobre normas y estándares. Luego en los 80'se
toma conciencia del factor tiempo trayendo consigo profundos cambios en las
organizaciones de las empresas y automatización de un cierto número de
procesos. Esta noción de tiempo se traduce a menudo en términos de
reducción de plazos: plazo de diseño, plazo de entrega, etc. Este objetivo de
reducción de los plazos es aún hoy fundamental en los servicios. La tendencia
de los años noventa es la mejora de los servicios asociados al producto;
estos servicios se incluyen en la fase de compra del producto (servicios a los
clientes, garantía, etc.), o bien en la fase de uso de dicho producto por la
incorporación cada vez más fuerte de inteligencia, a fin de hacer sus funciones
más accesibles.
12
La personalización busca dar a cada cliente (usuario, consumidor, comprador,

etc.) la impresión de ser único. Este es el contexto de la gestión de las
relaciones con los clientes con las aplicaciones. Se ha llegado a una lógica de
segmentación llevada al extremo, donde todos los vendedores deben
reaccionar como los entrañables tenderos del barrio que, cada vez que alguien
entra en sus establecimientos es llamado por su nombre, preguntado por la
familia, ofreciéndole productos adaptados a su perfil. Hoy, este comportamiento
se simula por la información que el sistema asocia a un cliente.
Entre otras características, este marketing de precisión, o micromarketing,

permite:
• Mayores ingresos por las captaciones eficaces de clientes, mejores

índices de respuesta directa de marketing, mejores ventas cruzadas,
ventas de actualizaciones y menores quejas de los clientes.
• Reducción de costes mediante la automatización de las interacciones,
aumento de la productividad del personal desplazado, reducción del
marketing directo y los gastos en medios de comunicación.
• Ventaja sobre la competencia gracias a una mayor fidelidad y
retención de los clientes, mayor comprensión del mercado y de los
clientes y un tiempo reducido de salida al mercado.
• Entender mejor el comportamiento de los clientes y personalizar sus
ofertas basándose en las necesidades de los mismos.
• Identificar tendencias, descubrir las necesidades emergentes de los
clientes y reasignar recursos de desarrollo de forma dinámica para
diseñar y ofrecer productos que cubran las demandas futuras.
• Utilizar y alinear recursos, integrar procesos y funciones y ofrecer
productos o servicios que cumplan las expectativas de los clientes.
Estas características pueden exponerse de otra manera:
• Aumentar el rendimiento de las acciones comerciales y de

marketing. Un marketing directo estándar da un rendimiento del 2 al
4%, mientras que un marketing directo orientado al perfil y pautas de
compra del cliente da unos valores del 10 al 20%. A título de ejemplo, un
banco francés ha conseguido más de 2 millones de francos de ahorro
anual, debido a la reducción de costes de impresión y envío, trabajando
básicamente sobre la orientación de sus mailings.
• Aumentar los servicios proporcionados. Conocer los perfiles de
consumo de los clientes permite la realización de propuestas de
servicios completamente adaptados y personalizados. Aquí se incluye el
diseño de ofertas a medida, así como políticas de precios y descuentos
adaptados a cada situación.
• Mantener la fidelidad de los clientes. Esta fidelidad puede conseguirse
también por medio de los servicios que hacen más difícil el paso de un
proveedor a otro. El tema de la desvinculación y abandono de clientes
es uno de los que más preocupan a las empresas. El conocer las causas
por las cuales se produce este fenómeno ayudará enormemente a la
elaboración de estrategias de retención y fidelidad de los clientes,
especialmente de aquellos más rentables.
13
De esta manera, es fácil comprender la formidable proliferación de

cuestionarios y encuestas que la gente recibe regularmente, solicitando
detalles sobre cada uno de nosotros y sobre nuestro consumo. Debido a que
toda empresa debe adaptar hoy sus productos a los clientes, la palabra clave
es el conocimiento del cliente. Pero no todas las empresas están en contacto
directo con el cliente, como les ocurre a los proveedores de tecnologías y de
productos básicos, a los fabricantes, a los distribuidores al por mayor, etc.
Estas empresas deben buscar en el exterior la información sobre los clientes
que usan directa o indirectamente sus productos.
1.3 Sistemas Business Intelligence y

su impacto organizacional
1.3.1 Condiciones para adoptar un sistema de Business
Intelligence
Muchas de las condiciones para adoptar un sistema de Business Intelligence

vienen por la necesidad de mejorar la facilidad de uso y reducir los recursos
requeridos para implementar y usar nuevas tecnologías de la información.
Aunque en el capítulo 2 se tratará con mayor detalle el trasfondo tecnológico,
es importante insistir en los detonantes desde el punto de vista de negocio que
provocan la adopción de las soluciones de Business Intelligence.
Básicamente, son tres:
• La necesidad de aumentar los beneficios, reducir los costes y competir

de forma más eficiente. Lejos quedan los días en que los que los
usuarios finales podían gestionar y planificar operaciones a través de
informes mensuales por lotes, y los departamentos de tecnologías de la
información disponían de meses para implantar nuevas aplicaciones.
Hoy en día, las empresas necesitan implementar las aplicaciones
informacionales de forma rápida, proporcionando a los usuarios la
información de negocio latente de forma fácil y flexible. Los sistemas de
Business Intelligence están orientados hacia el acceso y distribución de
la información a los usuarios finales.
• La necesidad de gestionar y modelar la complejidad del entorno
empresarial actual. El escenario de desregularizaciones y fusiones
entre compañías significa, entre otras cosas, que las empresas está
ofreciendo y soportando una amplia gama de productos y servicios,
dirigidos hacia una audiencia más amplia y diversa. Comprender y
gestionar un entorno así de complejo, optimizando las inversiones, es
una tarea cada vez más complicada. Los sistemas de Business
Intelligence proporcionan mucho más que simples aplicaciones de
consulta y elaboración de informes. También ofrecen mecanismos de
análisis complejos de la información y herramientas orientadas hacia el
descubrimiento de patrones complejos.
• La necesidad de reducir los costes en tecnologías de la información.
Las inversiones en este campo constituyen hoy en día un porcentaje
14
significativo de los gastos corporativos. No sólo existe la necesidad de

reducir esta cuota, sino también obtener los máximos beneficios
derivados de la información gestionada por los sistemas informáticos.
Las nuevas tecnologías de la información, como las intranets
corporativas o los clientes ligeros, ayudan a reducir el coste derivado de
la diseminación de los sistemas de Business Intelligence a una
audiencia más amplia.
Los sistemas de Business Intelligence abren también el alcance de la

información que puede ser procesada, incluyendo no sólo datos operacionales,
sino también información gestionada por los sistemas de oficina o los
servidores web corporativos.
1.3.2 Requerimientos básicos de un sistema de Business

Intelligence
Los requerimientos principales de un sistema de este tipo básicamente son:
• Aplicaciones que ayuden a las organizaciones a maximizar su

rendimiento en los negocios, generando la eficiencia operativa. Así
mismo, obtendrá una mayor comprensión y entendimiento del entorno y
de los procesos desde la propia experiencia en las personas y
organizaciones.
• Coste efectivo que proporcione un rápido retorno de la inversión para el
negocio y permita a la organización competir de forma más efectiva.
• Un acceso rápido y fácil a la información de negocio para un amplio
rango de usuarios finales, incluyendo tanto proveedores de información
como consumidores de ésta.
• Soporte para modernas tecnologías de la información, incluyendo
técnicas de análisis, verificación de hipótesis y descubrimiento de
patrones y tendencias.
• Un entorno operativo abierto y escalable; aunque básicamente
tecnológico, el último punto es de vital importancia, ya que condiciona
totalmente el volumen de datos que se podrán tratar y el tipo y
funcionalidad de las aplicaciones analíticas que se vayan a utilizar.
1.3.2.1 Marco de trabajo de los datos en las aplicaciones de

Business Intelligence
Recordemos que un sistema de Business Intelligence se compone de varias

fuentes de datos: las estructuradas y las semi-estructuradas; ambas fuentes de
datos son igual de importantes. Esto se lo puede resumir en la figura 1.6 la
misma que muestra el marco de trabajo en donde se puede observar como se
integran las fuentes de datos estructuradas y semi-estructuradas las mismas
que son necesarias para la implementación de un sistema de Business
Intelligence.
15
Figura 1.6: Marco de trabajo de los datos en las aplicaciones de Business Intelligence1.
Como se puede observar claramente las fuentes de datos estructuradas y

semi-estructuradas son de igual importancia. Adicionalmente se puede
observar que el proceso de búsqueda, integración y depuración (limpieza) se
aplica a las dos fuentes de datos la estructurada y la semi-estructurada.
Para crear un sistema de Business Intelligence los datos provistos por las
fuentes de datos son sometidos a un proceso de búsqueda, análisis y de envío
a la persona responsable de la toma de decisiones. Para el caso de los datos
provenientes de una fuente estructurada los analistas utilizan herramientas
tales como sistemas ERP's, ETL's, DW's, Data Mining y herramientas OLAP.
Para el caso de fuentes de datos semi-estructuradas el análisis es realizado
con la ayuda de otras herramientas menos sofisticadas.
Ahora bien, debido a que las aplicaciones de Business Intelligence deben de

interactuar con fuentes de datos estructuradas y semi-estructuradas la
arquitectura de datos de los sistemas de Business Intelligence no está
diseñada de una forma muy técnica a diferencia de la arquitectura propuesta
por las fuentes de datos estructuradas. La arquitectura para fuentes de datos
semi-estructuradas está enfocada en estándares, metadatos, reglas de negocio
y políticas Moss (2003).
1
Fuente: Adaptado de Negash. (2004). Pág.181.
1.3.2.2 Arquitectura para fuentes de datos estructuradas
Una arquitectura típica de las aplicaciones de Business Intelligence está

basada en los Data Warehouses; los datos son extraídos de los sistemas
operacionales hacia el Data Warehouse y éste a su vez sirve de base para la
creación de los Data Marts que son utilizados por los ejecutivos y los
responsables del análisis de la información. Estos Data Marts son consultados
ya sea a través del Internet o por medio de consultas hechas por analistas
utilizando OLAP. En la figura 1.7 se encuentra una arquitectura típica para las
fuentes de datos estructuradas.
16
Figura 1.7: Arquitectura típica de fuentes de datos estructuradas1.
1
1.3.2.3 Arquitectura para fuentes de datos semi-estructuradas
Moss (2003) indica que la arquitectura para fuentes de datos semi-

estructuradas contemplan incluyen:
- Modelo funcional del negocio
- Modelo de procesos del negocio
- Modelo de datos del negocio
- Aplicaciones de inventario
- Repositorio de metadatos
A continuación en la figura 1.8 se muestra los elementos que constituyen la

arquitectura de las fuentes de datos semi-estructuradas.
17
Figura 1.8: Arquitectura para fuentes de datos Semi- estructuradas1.
Los 5 componentes que la constituyen están descritos a continuación:
• Bussines funtion model: Es la descomposición jerárquica de los

negocios de la organización; es decir, muestra QUE HACE.
• Bussines process model: Son los procesos implementados para las
diferentes funciones de la organización; es decir, muestra COMO LO
HACE.
• Bussiness Data Model: Describe los tipos de datos que maneja la
organización, las relaciones que conectan estos tipos de datos con los
negocios actuales, los elementos que la conforman y las reglas a las que
están sometidas dentro de la organización; es decir QUE TIPO DATOS
maneja.
• Application Inventory: Se refiere al inventario de todos los procesos,
funciones, componentes y datos de la organización; es decir DONDE se
encuentran implementados.
• Metadata repository: Es una descripción detallada de los modelos de
negocio; permite el uso de los metadatos de la organización.
1
1.3.3 Costos y beneficios de implementar sistema de Bussiness

Intelligence
Los proyectos de Business Intelligence no están exentos de la presión de las

organizaciones de justificar una inversión en tecnologías de la información.
Existen estudios que demuestran que el retorno de las inversiones ROI1 para
18
las aplicaciones de Business Intelligence están por demás justificadas. Ahora

bien los costos básicos que deben ser considerados para la implementación de
un sistema de Business Intelligence se los puede resumir en:
• Costos de Hardware: Este costo depende de la infraestructura que

tenga la organización en el momento de la implementación del sistema
de Business Intelligence; si esta tiene ya implementado un Data
Warehouse lo único que se deberá adquirir es un Data Mart de uso
específico para la aplicación de Business Intelligence; también es
posible que sea necesario actualizar el Data Warehouse. Adicionalmente
se pueden presentar las necesidades de actualizar otro tipo de
Hardware necesario para la implementación de la Intranet y la Extranet
con el fin de difundir la información a la comunidad.
• Costos de Software: El costo estimado de los paquetes de Business
Intelligence es de $60.0002. También es necesario tomar en cuenta la
necesidad de información externa. Por ejemplo, información
concerniente a los hábitos de compras de los consumidores de los tipos
productos que produce la empresa3.
• Costos de implementación: Este es un costo que se tiene una sola vez
dentro de la implementación de un sistema de Business Intelligence,
este incluye el entrenamiento inicial. Ahora bien el entrenamiento es un
costo que está siempre presente ya que nueva gente es invitada a
utilizar la nueva aplicación y también debido a las actualizaciones del
software. Adicionalmente es importante acotar que los típicos contratos
anuales de mantenimiento del software estipulan un costo del 15% del
valor de compra.
• Costos de personal: Dentro de este costo se estipulan los valores de
las personas asignadas a las tareas de Business Intelligence y soporte
de IT, los costos que deben ser considerados son salarios, equipos de
computación y cualquier tipo de infraestructura. Si se desea tener un
análisis de costo bastante detallado es necesario considerar el tiempo
que se utiliza para leer e interpretar los reportes generados por los
sistemas de Business Intelligence junto con el Internet y las otras
fuentes de Business Intelligence.
Los beneficios de implementar un sistema de Business Intelligence son

intangibles. Un estudio empírico encontró que la mayoría de las compañías no
consideran la reducción de costos o el ahorro de tiempo como los principales
beneficios al invertir en los sistemas de Business Intelligence. El anhelo de
estas organizaciones es que un buen sistema de Business Intelligence lo
llevará a un fuerte retorno de su inversión en algún momento en el futuro.
Beneficios de un sistema de Business Intelligence
- Ver los datos en forma gráfica para ayudarle a tomar mejores

decisiones de negocios.
- Usar los datos para establecer las metas y medir el progreso en
Organizacionales y de
forma acertada.
procesos
- Combinar los datos de negocios con información geográfica y
demográfica.
- Obtener una vista precisa del rendimiento de la corporación
19
mediante el uso de métricas.

- Conocer el comportamiento y preferencias de los clientes.
- Identificar los patrones y tendencias dentro de grandes volúmenes
de datos.
- Maximizar la Rentabilidad de su negocio, entre otras.
- Mejor seguimiento, análisis y control del negocio

- Realización de consultas libres por aparte de los usuarios
- Detección temprana de tendencias y mejor adaptación a las nuevas
condiciones del mercado
- Alerta de forma temprana sobre nuevas necesidades en el negocio
De negocio
- Disponer de una visión integrada de los clientes que permita un
servicio y atención más individualizados
- Mejora del ciclo de marketing, permitiendo una selección más
ajustada del publico objetivo y el análisis de la efectividad de las
campañas
- Incorporación de nuevas tecnologías den sistema de información

- Mejora en la flexibilidad y respuesta a nuevas necesidades de
información con un mantenimiento óptimo
Tecnológicos - Buena integración de la información de todas las áreas de negocio
a nivel de detalle, permitiendo desarrollar aplicaciones y visiones de
negocio con un mínimo esfuerzo
- Reducción de la carga de trabajo del departamento de informática
1
ROI: Return of Inversion, Retorno de la Inversión.
2
Fuente: Negash. (2004). Pág.185.
3
Conocido como Análisis de la Competencia o Competitive Intelligence (CI)
Capítulo 2.- Almacenes de

información: fundamentos del Data
Warehousing
OBJETIVOS
- Conocer el datawarehouse como repositorio único de información dentro de la empresa.
- Reconocer las diferencias respecto a las bases de datos operacionales.
- Conocer los procesos de integración, validación y consolidación de la información dentro de

un datawarehouse.
- Conocer las fases de construcción.
- Reconocer tipos de documentación de la información contenida: catálogos y metadatos.
- Conocer las soluciones departamentales: datamarts.
20
2.1 Definición de un Data Warehouse

Dentro del entorno empresarial actual existe un axioma prácticamente
incontrovertible: la información es la clave para determinar cómo obtener una
ventaja competitiva. El problema, está en el manejo de los volúmenes de datos
en bruto que los sistemas informáticos recopilan, procesan, derivan y
diseminan. Literalmente, se podría decir que las empresas se encuentran en el
centro del cráter de un volcán de datos en erupción; pero, en algún lugar de
esta explosión de datos se encuentran las claves que los responsables de la
gestión empresarial necesitan para definir el posicionamiento estratégico en el
mercado, maximizando así su ventaja competitiva.
Dentro de este cuadro, la tecnología ha ubicado el concepto de Data

Warehouse (DW)1como una alternativa para abordar el problema de la sobre
carga de información. Básicamente, un Data Warehouse se puede definir
como:
"Colección de información corporativa, derivada de las fuentes de datos

internas y alguna externas, cuyo fin es soportar la toma de decisiones de la
empresa y no las operaciones de negocio".
Así, los objetivos del Data Warehouse son:
- Ayudar a los gestores y responsables encargados de la toma de decisiones a

transformar los datos en bruto en información;
- Ayudar a los gestores a identificar tendencias clave;
- Ayudar a las empresas a predecir determinados sucesos y actuar con

anticipación con respecto a ellos, y
- Ayudar a comprender lo que sucedió, permitiendo a la empresa reaccionar,

redefiniendo los procesos y sacando beneficio de la experiencia.
Un prerrequisito fundamental para todo esto es que los datos para soportar los
análisis tienen que ser accesibles, tienen que estar actualizados, y su acceso
debe poder hacerse de forma flexible y en un formato válido para los usuarios.
Hasta la fecha se ha realizado mucho hincapié en la tecnología de base que
sustenta el concepto de Data Warehouse, pero no demasiado en el trasfondo
estratégico, la planificación, los procesos de negocio y los servicios que
desarrollan, mantienen y usan la tecnología de Data Warehouse.
Un Data Warehouse es un repositorio único de información empresarial; es

importante resaltar que, una vez construido, debe ser la única fuente a la que
los usuarios de negocio deben ir a buscar información; aunque esto puede
parecer evidente, la experiencia demuestra que no siempre es así.
Para comprender la necesidad de hablar de Data Warehouse en el contexto

empresarial actual es necesario plantear las limitaciones de los sistemas
21
transaccionales de cara a la explotación de la información contenida en los

datos que procesan.
Los sistemas que contienen los datos operacionales, aquellos derivados de las
transacciones diarias del negocio, contienen información que es útil para el
analista de negocio. Por ejemplo, los analistas pueden usar información sobre
que productos fueron vendidos en determinadas regiones en un momento
determinado del año con el fin de buscar anomalías o diseñar futuros planes de
venta. Sin embargo, existen diversos problemas cuando los analistas acceden
directamente a los datos operacionales:
• Es necesario de un técnico para revisar los datos en tablas de datos del

sistema de información operativo, este muchas veces no entiende que
es lo que quiere hacer la persona que esta pidiendo esa información.
• La mayoría de estas bases de datos no dan soporte multiusuario a gran
escala lo que ocasiona su lentitud o inaccesibilidad.
• Los datos operacionales no están en el formato más adecuado para ser
explotados por los analistas de negocio. Por ejemplo, estos necesitan
los datos de ventas agregados por producto, región, época, etc, los
sistemas operacionales mantienen los datos en forma bruta y no
sumarizada.
• Los analistas de negocio necesitan acceder a información histórica, para
analizar tendencias y modelar comportamientos, las bases de datos
operacionales mantienen los datos activos, sin una profundidad
suficiente como para soportar este tipo de análisis.
Los sistemas de Data Warehouse vienen a solucionar estos problemas. En un

Data Warehouse, se definen almacenes de datos informacionales, datos que
son extraídos de los datos operacionales y después transformados para su uso
por parte de los usuarios de negocio. Por ejemplo, mediante los procesos de
aprovisionamiento del Data Warehouse se podrían copiar los datos de venta
del sistema operacional, realizar cálculos con el fin de sumarizarlos e
integrarlos de forma consistente en el Data Warehouse. De esta forma, los
analistas pueden consultar la información en el formato que ellos necesitan, sin
impactar en el rendimiento de los sistemas operacionales.
22
Figura 2.1: Visión general de un Data Warehouse.
1
A lo largo de la literatura, este término puede encontrarse escrito de diversas maneras:
básicamente como data warehouse o datawarehouse. Su traducción al castellano pocas veces
se realiza, ya que se presta a confusión. En cualquier caso, es preferible hacerlo como
almacén de información, ya que la traducción literal, almacén de datos, no hace referencia a su
naturaleza informacional.
2.2 Los datos de un Data Warehouse

2.2.1 Características de los datos contenidos en un Data
Warehouse
Los datos informacionales tienen una serie de características que los

diferencian de los operacionales.
2.2.1.1 Integración
Los datos en un Data Warehouse deben responder a todas las necesidades de

la empresa la forma de hacer que todos los datos sean únicos y para todos es
uno de las ventajas más llamativas del Data Warehouse. Aunque cuando se
hable de datamarts, o repositorios departamentales, hay información que debe
ser compartida a lo largo de todos los departamentos. Esta visión única y
horizontal es un punto clave en la concepción del datawarehouse, implicando
una necesaria integración y homogeneización de toda la información.
23
Una parte clave de los procesos de aprovisionamiento de un Data Warehouse

es el formateo y unificación de los datos. Cada uno de ellos debe tener una
descripción y una codificación únicas, perfectamente documentadas, tanto para
el usuario técnico como de negocio. Normalmente, las fases de integración y
consolidación de datos requieren la mayor parte de los esfuerzos de
construcción del Data Warehouse.
Figura 2.2: Carga de datos en un Data Warehouse.
2.2.1.2 Profundidad
A diferencia de un sistema operacional, el cual es actualizado; los Data

Warehouse raramente tiene actualizaciones debido a que tienen que mantener
los valores de los datos por largas fracciones de tiempo.
En un datawarehouse, las operaciones de actualización sobre la base de datos

son más bien escasas, por no decir nulas. Desde el punto de vista de las
consultas, es fundamental que los valores que han tomado los datos a lo largo
del tiempo se mantengan y, al mismo tiempo, el acceso a un valor temporal sea
algo fácil para los usuarios.
Esta falta de volatilidad de los datos del Data Warehouse condiciona

enormemente su ajuste de cara al rendimiento. En este sentido, el Data
Warehouse puede optimizarse de cara al uso que harán los usuarios,
fundamentalmente consultas, y el que harán los encargados de mantenimiento,
básicamente inserciones periódicas y planificadas de nuevos datos.
Evidentemente, la fase de carga inicial de los datos requerirá otros ajustes,
pero los requerimientos del sistema en fase de producción serán otros.
24
2.2.1.3 Detalle
La cantidad de datos que puede llegar a almacenar un Data Warehouse es

muy grande, principalmente por su carácter corporativo y por la profundidad
histórica requerida. En este sentido, el nivel de detalle de los datos no será
necesariamente igual al del sistema operacional.
Es frecuente que los datos insertados sean sometidos previamente a un

proceso de agregación pero, en cualquier caso, las características de este
dependerán de los análisis que realizarán los usuarios finales. Por ejemplo, una
cadena de supermercados puede tener almacenados los datos a nivel de
transacción, conservando sólo el código de cliente, la fecha, el importe y el
número de artículos comprados, o bien, por que está interesado en efectuar
análisis de asociaciones entre productos, conservar los diferentes artículos
comprados.
Los niveles de agregación y los niveles de análisis y busquedas que realizaran

los usuarios serán los mas tomados en cuanto al desarrollar un Data
Warehouse, ya que si estos están mal o no están en su totalidad limitarían de
gran manera la eficiencia del Data Warehouse. En este sentido, es vital que el
nivel de agregación esté perfectamente documentado; de lo contrario, el
acceso, la comprensión y la navegación por la información será muy costosa
para los usuarios.
Figura 2.3: Características principales de un Data Mart.
2.2.2 Data Marts
Un Data Mart es una base de datos separada del Data Warehouse; en

ocasiones consiste en un subconjunto del Data Warehouse en la misma base
de datos. Desde un punto de vista más funcional, el Data Mart es una vista del
25
Data Warehouse orientada a un aspecto concreto del negocio: marketing,

compras, dirección general, etc.
Los Data Mart contienen menos datos y solo están especificados para un
objetivo en la organización; esto hace que tenga menos usuarios, menos
actualizaciones y menos restricciones para su construcción; haciendo que sean
más baratos que un Data Warehouse.
Por las características de los datamarts de contener mucha menos cantidad de

datos que el datawarehouse es el objeto del procesamiento analítico por parte
de los usuarios finales. Por esto, en un entorno de datawarehouse corporativo,
habrá datamarts que se ajusten a distintos aspectos y usuarios de la
organización, pero lo que es fundamental es la integración de todos bajo una
única estructura corporativa.
A la hora de construir un datawarehouse existen distintas aproximaciones, pero

básicamente se puede hablar de dos:
• Construir inicialmente el núcleo del Data Warehouse para después

utilizarlo como base para realizar rápidamente muchos Data Mart. En
este caso, la construcción inicial dura más, ya que se debe analizar las
necesidades de datos de toda la empresa, identificando los elementos
de información que se usarán de forma global. La ventaja de esta
aproximación radica en que el esfuerzo inicial facilitará la
implementación paulatina de los Data Marts.
• Construir primero un Data Mart específico para un grupo de trabajo. Esta
aproximación pone rápidamente los datos en manos de los usuarios; sin
embargo, el peligro puede surgir a la hora de intentar replicar el esfuerzo
para construir otros Data Marts en especial el Data Mart corporativo.
Sea cual sea la aproximación, es importante resaltar que un conjunto de Data

Marts no constituyen por si solos un Data Warehouse corporativo si no se
realiza un esfuerzo de consolidación e integración de la información que
comparten.
2.2.3 El catálogo de un Data Warehouse
Una parte fundamental de un Data Warehouse es el catálogo de metadatos.

Los metadatos son datos sobre los datos, en el sentido que permiten tanto a
los usuarios de negocio como a los encargados del mantenimiento del Data
Warehouse saber en todo momento la definición, características, formato y
ámbito de los datos almacenados en el Data Warehouse. Estos datos que
están dentro de los datos se conocen como metadatos y son esenciales al
momento de encontrar información. En otras palabras, los metadatos agrupan
todas las informaciones respecto al datawarehouse y los procesos que lleva
asociados. Estas informaciones las pueden emplear:
Los que buscarán la información a través de metadatos serán:
26
• Los usuarios, que estarán interesados en la semántica sobre los datos

y su localización en el Data Warehouse.
• Los responsables de los procesos de transformación de datos del
entorno operacional al Data Warehouse. En este caso se habla
propiamente de metadatos técnicos, que contienen información sobre la
localización de los datos en los sistemas operacionales y la descripción
de las reglas y los procesos de transformación.
• Los responsables de los procesos de agregación de datos a partir
de datos detallados.
• Los responsables de la administración de la base de datos, en lo
referente a la modelización de las estructuras de datos.
• Los responsables de los sistemas operacionales, en cuanto pueden
contener información sobre los procedimientos de carga, el historial de
actualizaciones, etc.
Figura 2.4: Características de un catálogo de un Data Warehouse.
La importancia del catálogo de metadatos es vital de cara a facilitar a los

usuarios el acceso a la información que contiene el datawarehouse, así como
para el mantenimiento técnico del mismo.
2.3 Alineamiento de la tecnología

con los objetos de negocio
Aunque la tecnología de datawarehouse madura de forma constante, no
existen muchas indicaciones teóricas sobre lo que mejor se adapta a cada
caso. En este sentido, la experiencia y la evolución de las situaciones son el
mejor fundamento sobre el que basar cualquier iniciativa de implementación.
Existen diferentes criterios que se deberían contemplar en la implementación
27
de un Data Warehouse, pero básicamente se pueden agrupar en cuatro

categorías:
- Criterios de negocio.
- Criterios de proceso.
- Criterios tecnológicos.
- Criterios de la determinación de requerimientos de la información.
2.3.1 Criterios de negocio
El primer conjunto de criterios tiene que ver con el problema de negocio que se
debe abordar y los beneficios esperados de la solución que se implemente.
2.3.1.1 Factores críticos de éxito
Ningún proyecto tecnológico será satisfactorio si no está debidamente alineado

con la misión del negocio, su visión global, sus objetivos o en su estrategia, Por
ello, es de vital importancia comprender los puntos estratégicos que se deben
plantear:
• ¿Cuál es el problema que se quiere resolver? ¿Está relacionado con el

ciclo temporal de los procesos, la satisfacción de los clientes, la
optimización de la toma de decisiones, o con una falta generalizada de
información sobre la que basar la toma de decisiones?
• ¿Cuál son los objetivos departamentales o corporativos que están
directamente relacionados con el problema?
• ¿Cuáles son los factores críticos para el éxito de la solución, es decir,
qué cosas tienen que ser realizadas correctamente para resolver el
problema?
• ¿Cuál de los componentes de la organización está mejor posicionado
para resolver el problema?
• ¿Quiénes usarán dentro de la organización de forma más efectiva la
nueva tecnología y cómo (ejecutivos, analistas financieros, ingenieros,
usuarios administrativos, etc.)? ¿Por qué la necesitan y qué beneficios
obtendrán de ella?
• ¿Cómo puede emplearse esta tecnología para resolver el problema?
Éste es el punto en que deben alinearse las necesidades de negocio y la
tecnología.
Ejemplo de factores en una implementación
Según Lindsey & Frolick (2002)1 aproximadamente 3000 proyectos de Data Warehousing se
realizan alrededor del mundo y aproximadamente un 70% de estos fracasan aunque desde
1995 se tenga conocimiento documentado únicamente de 17 fracasos. Una posible
discrepancia de estas estadísticas es según Lindsey & Frolick la definición de lo que es una
fracaso en un proyecto de Data Warehouse; ellos proponen una definición estándar la misma
que pueda ser utilizada, tal es así que proponen que un fracaso de un proyecto de Data
Warehouse es la cancelación formal o informal de un proyecto o también como la condición
28
ene donde el proyecto de Data Warehouse terminado no cumple con las expectativas de la
organización.
Emprender un proyecto de Data Warehousing lleva consigo un alto riesgo y adicionalmente un

costo bastante importante para las empresas. La razón más común de fracaso de los proyectos
de Data Warehouse radica en un pobre apoyo por parte de los directivos de las empresas,
insuficiencia de fondos, un involucramiento inadecuado de los usuarios, y por último cambios
en las políticas organizacionales.
El éxito o fracaso en la implementación de un sistema de Business Warehouse depende de

factores tales como:
- Soporte de los directores, está considerado como uno de los más importantes factores que
inciden directamente en el éxito de la implementación de un Data Warehouse. El efecto que
produce dentro de las organizaciones es el de motivar a la misma y apoyarla sin importar los
cambios que esta nueva herramienta traiga consigo dentro de la organización.
- Champion, es el encargado de promover la nueva aplicación; entre sus funciones están las de
apoyar consiguiendo la información necesaria, recursos y lo más importante es el nexo político
entre el proyecto y la organización.
- Recursos, esto se refiere a recursos monetarios, humanos y de tiempo que son de suma
importancia para completar exitosamente un proyecto de Data Warehouse.
- Participación activa de los usuarios, se refiere a brindarles la oportunidad de adquirir un rol

más activo dentro de la implementación del proyecto; esto es a través de la asignación de
responsabilidades específicas dentro de la ejecución del proyecto. Asegurar la participación de
los usuarios en un proyecto de Data Warehouse se asegura que estos a su vez tengan una
visión mas clara de los beneficios que les traerá la nueva herramienta.
- Las habilidades del equipo, los integrantes del equipo encargado de la implementación del
nuevo Data Warehouse son la pieza más importante; las habilidades del equipo incluyen las
técnicas y las interpersonales.
- Los sistemas de donde se extraerá la información hacia el Data Warehouse juegan un papel
preponderante dentro de lo que es la implementación de un Data Warehouse. A mayor
heterogeneidad en las fuentes de datos los esfuerzos para la extracción y transformación serán
considerablemente mayores.
- La tecnología existente, se refiere al software, hardware, métodos y programas utilizados en

el proyecto. Es necesario que el equipo este bien familiarizado con las herramientas que está
utilizando el proyecto; tener herramientas complejas y difíciles de entender inciden en el
desempeño general del equipo, retrasos y muy posiblemente un Data Warehouse de pobre
calidad.
Implementar un Data Warehouse exige por parte de las empresas un compromiso financiero y
de recursos humanos; tener los recursos necesarios, los miembros del equipo apropiados y la
participación del usuario final tienen un efecto muy positivo en el resultado final del proyecto.
1
Fuente: Lindsey, K. & Frolick, M.N. (2002). Critical factors of Data Warehousing failures.
Journal of Data Warehousing.
29
2.3.1.2 Cuantificación de los beneficios
Una vez que los beneficios tecnológicos han sido alineados con los objetivos
de negocio estos deben ser cuantificados. Según (Watson & Haley, 1997)1 el
costo de este tipo de proyectos es de alrededor de $1 millón solo en el primer
año. Por esta razón los gestores deben ser capaces de responder a la
pregunta: ¿Cómo sabré si la adopción de una determinada solución será
beneficiosa? La respuesta debe tener la forma: "la solución será exitosa si
permite a la organización conseguir los siguientes objetivos...". Además debe
tener números, cuando a alguien se le propone una solución que necesita una
inversión grande lo primero que va a preguntar es: ¿Qué gano yo? ¿Cuánto
gano yo?
En la mayoría de las organizaciones, la cuantificación de los beneficios

adquiere forma de análisis financiero, en forma de análisis del retorno de la
inversión. Un estudio de la International Data Corporation, copatrocinado por
IBM, mostró que la adopción de soluciones de Data Warehouse puede producir
cifras de ROI realmente importantes. El estudio, que incluía 62 participantes,
demostró que el ROI global en proyectos de Data Warehouse era del 401%,
con periodos de amortización de entre dos y tres años.
Lo que era especialmente interesante del estudio, sin embargo, era que las
implementaciones departamentales pequeñas, los Data Marts, tenían un ROI
del 533%, mientras que la soluciones corporativas lo tenían del 322%.
Figura 2.5: Retorno de la inversión en soluciones de Data Warehouse.
30
Figura 2.6: Ejemplo de impacto del ROI en un negocio2.
El estudio del IDC identificó tres tipos de beneficios derivados del uso de un
Data Warehouse:
• Beneficios derivados de la reducción de costes.
Estos beneficios residían en la capacidad de no gastar dinero que

actualmente se dedica a la generación de informes para los usuarios
finales. Esto incluye los recursos dedicados por los departamentos de
tecnologías de la información para generar respuestas a consultas libres
de los usuarios. En muchos sentidos, el Data Warehouse representa una
liberación para estos departamentos, ya que proporciona a los usuarios
las herramientas que necesitan para generar sus propios informes.
• Ganancias en eficiencia.
Una de las cosas más evidentes es el aumento de la productividad en

los usuarios finales que acceden y analizan los datos. El analista que
debe interrumpir un análisis para obtener cierta información,
solicitándosela a alguien, pierde eficacia en dos sentidos. El primero
está en el círculo descrito anteriormente, donde habrá varias solicitudes
y respuestas entre el analista y los técnicos de informática antes de que
el primero vea satisfechas sus necesidades. El segundo reside en la
interrupción del análisis, y las ineficacias asociadas al proceso de
recuperación y terminación del mismo. Además que ahora la información
que se obtiene ahora es mucho mas precisa, permitiendo mejorar la
toma de decisiones.
• Ahorros dependientes del propio Data Warehouse.
Hay un considerable número de decisiones basadas en análisis que sólo

podrían venir de datos residentes en un Data Warehouse. Esto viene
condicionado por la circunstancia de que en los sistemas operacionales
pudieran no existir ciertas relaciones entre los datos y, por lo tanto, no
estarían disponibles para el análisis. Construyendo las asociaciones y
relaciones requeridas en el Data Warehouse se llega a una situación en
la que el todo es más grande que la suma de las partes, de forma que
los análisis serán más efectivos.
31
Pero no todos los beneficios se pueden cuantificar en términos de ROI. Muchas

empresas rechazan los análisis formales de ROI por que consideran que un
Data Warehouse es una inversión estratégica. En estos casos, las
organizaciones están previamente convencidas de que los beneficios serán
superiores a los costes. Sin embargo, es importante tener una comprensión
previa de los costes asociados a un proyecto de este tipo antes de embarcarse
en él.
Para clarificar y entender mejor los beneficios de negocios esperados de la

implementación de un Data Warehouse es oportuno introducir aquí el concepto
de sistema de soporte a la decisión. Por si sólo, un Data Warehouse contiene
simplemente datos. Su aprovechamiento y acceso por parte de los usuarios se
consigue cuando se explotan estos datos mediante un entorno de aplicaciones
que se adapta a los requerimientos de los análisis (similar a como haría un
DSS)3.
Cuestiones sobre la medición del ROI
La dirección de una empresa requiere conocer el valor de su DW con instrumentos

cuantificables como el ROI1, ver más abajo la fuente), no obstante su cálculo requiere tener
presente algunos temas:
- Justificación del costo. Muchos proyectos de DW son implementados sin hacer estimaciones
de los beneficios potenciales.
- Costos del DW. A menudo se incluyen costes técnicamente inportantes, pero no de negocio,
como hardware, software, consultores y contratistas, redes de comunicaciones, capacitación de
personas informáticos y usuarios, y administración de los sistemas operativos y de gestión,
dejando fuera otros, como cambios por reingniería, despidos y contrataciones, etc.
- Total cost of ownership (TCO). El TCO vá más allá de la implantación. Por ejemplo, el coste
anual de mantener un DW va del 40% al 60% del coste inicial.
- Beneficios. Un DW ouede entregar beneficios sustanciales tanto tangibles como intangibles.
Pero medirlos son un reto, por ello se requieren personas experimentadas y seguir buenas
prácticas.
- Medición post-implementación. Costos y beneficios de la post implementación son cruciales
pues ayudan a determinar y fijar objetivos futuros, mejorar estimaciones de coste y propuestas
de expansión y mejora.
- Cálculo del ROI. El cálculo del ROI es sencillo y podría incluir el coste de capital y de riesgo
asociado con el proyecto. Por esto se sufiere usar otros métodos.
1
Ver: Adelman, Sid. (2003). Measuring Dataware Measurement Return on Investment.
http://www.teradata.com/t/pdf.aspx?a=83673&b=86833 [Leído: 18 de marzo del 2006].
32
Tabla 2.1. Cuestiones sobre la medición del ROI4.
1
Fuente: Bárbara, Wixom.; Paul, Gray.; Hugh, J, Watson. (2001). Data Warehousing and
Business Intelligence. Pág.18.
2
Fuente: Yang, Amoy. (2005). Use Lifetime Value Data Mart to Drive Analytic Efficiency. Junio
13.
http://www.datawarehouse.com/article/?articleid=5429 [Leído: 22 de marzo de 2006, 15:30
GMT-05:00].
3
En los siguientes capítulos se plantearan las distintas herramientas que pueden explotar de
forma efectiva todo el entorno integrado de información, ya sea a nivel de consultas y
verificación de hipótesis, o bien mediante soluciones para el descubrimiento de patrones y
tendencias subyacentes en los datos.
4
Fuente: Adaptación de http://www.teradata.com/t/page/86896/index.html [Leído: 18 de marzo
del 2005].
2.3.2 Criterios de proceso
Un cierto número de los elementos de una estrategia de Data Warehouse tiene

que ver con los procesos; los procesos mediante los cuales la estrategia será
implementada, y los procesos que son soportados por la estrategia global.
2.3.2.1 Alcance del esfuerzo
Muchos grandes proyectos de Data Warehouse han fracasado debido a la

incapacidad de la organización para manejar el tamaño y el alcance del
proyecto. Es tentador pensar en un único repositorio donde todos los datos
corporativos estén integrados; si la organización puede realmente construir un
modelo de datos integrado y resolver todas las cuestiones asociadas con tal
arquitectura, los beneficios serán verdaderamente significativos.
Sin lugar a dudas, algunos problemas de negocio requieren la integración de

datos procedentes de muchos sistemas, requiriéndose una estrategia global
pero, para muchos otros una estrategia más sencillas, basada en Data Marts,
será menos arriesgada. Una aproximación basada en Data Marts es, por
definición, más pequeña en cuanto a su alcance, más centrada en sus
objetivos, más rápida de implementar y menos costosa. Sin embargo, el riesgo
radica en la construcción de islas de datos. Idealmente, existe la necesidad de
pensar globalmente sobre la futura integración con otras aplicaciones
departamentales, no en soluciones aisladas.
Los Data Marts constituyen una alternativa rápida y menos costosa para
implementar un sistema informacional. Sin embargo, si una organización
determina que un Data Warehouse corporativo es la estrategia apropiada,
debería comenzar por desarrollar una estrategia global.
33
2.3.2.2 Diversas aproximaciones de la implementación
Decidir si la opción apropiada para una empresa es un Data Warehouse o un

Data Mart es el punto de partida idóneo. Sin embargo, debe estar acompañada
por la decisión de si comprar un paquete integrado de un único proveedor de
soluciones, contratar a un integrador de sistemas para consolidar una colección
de herramientas específicas, o crear una solución a medida. La ventaja obvia
de contratar a una organización que pueda proporcionar una solución completa
es, por su puesto, una implementación más rápida, un cumplimiento de los
objetivos de negocio más ajustado, y una mayor certeza de que las cosas
finalmente funcionarán como se espera (un menor riesgo desde el punto de
vista tecnológico).
Evidentemente, estas ventajas tienen un coste asociado y, con toda

probabilidad, será este el que condicione el tipo de implementación que se
realizará. El problema de la integración de diversas herramientas radica, en
ocasiones, en lo dependencia y compatibilidad entre ellas, sobre todo cuando
se lanzan al mercado nuevas versiones que incorporan ventajas apetecibles.
Sin embargo, de existir, este es un problema genérico, no imputable
exclusivamente a la implantación de un Data Warehouse.
2.3.2.3 Diversas aproximaciones en el diseño
El diseño y la construcción de una solución de Data Warehouse se lo puede

enfocar hacia dos posibles aproximaciones:
• Top-down, en la cual se define una arquitectura corporativa y después

se construyen los Data Marts que la componen.
• Bottom-up, comenzando con proyectos específicos de Data Mart en
función de necesidades críticas de negocio, e ir creciendo hasta llegar a
una estructura informacional corporativa.
La implementación de una de las dos aproximaciones depende de la decisión

de prefereir dar respuesta a requerimientos tácticos de tamaño reducido,
necesidades departamentales concretas, o estrategias corporativas a largo
plazo. Probablemente, a largo plazo, la aproximación top-down dará los
mejores resultados, pero implica involucrar importantes recursos de la
organización. Es una aproximación complicada, cara, y que implica un
importante replanteamiento a la concepción del negocio.
Por el contrario, la aproximación bottom-up favorece el uso de Data Marts más

pequeños, en los cuales se pueden evitar los inconvenientes del diseño top-
down, limitando simplemente la extensión de la implementación. Aquí, cada
departamento es responsable del diseño de los datos que necesita, la
definición de sus propios metadatos, y el uso de su propio repositorio de
información. Esta aproximación funciona especialmente bien si la organización
tiene un problema de negocio con un único foco y los datos para solucionarlo
existen en unas pocas ubicaciones.
34
A modo ilustrativo, la figura 2.7 muestra el proceso genérico de implantación

de un Data Mart departamental.
Figura 2.7: Fases genéricas de implementación de un Data Warehouse.
2.3.3 Criterios tecnológicos
La dimensión tecnológica juegan un papel principal en la estrategia corporativa.

Diferentes estrategias requerirán diferentes características tecnológicas y
capacidades. En este sentido, además de la flexibilidad y la rapidez de la
implementación, hay otros puntos que se deben considerar.
2.3.3.1 Escalabilidad
La escalabilidad se refiere a la habilidad de un sistema para aumentar su

capacidad a medida que los usuarios demandan más información, el volumen
de datos almacenados crece, más usuarios explotan el sistema y más
aplicaciones se ejecutan contra el Data Warehouse.
Un punto a tener en cuenta es que, a medida que los usuarios se familiarizan

con el sistema, su propia habilidad para lanzar nuevas consultas y navegar por
la información provocará que pidan más de él. Es decir, la escalabilidad es un
requerimiento ligado al propio uso de la solución. Todos los factores que
puedan provocar un aumento en la carga de proceso del sistema deben ser
35
considerados a la hora de determinar la plataforma tecnológica adecuada. Las

empresas que adquieran tecnología de Data Warehouse necesitan asegurarse
que ésta puede crecer a medida que lo hacen las necesidades corporativas.
2.3.3.2 Gestión
Un Data Warehouse necesita el desarrollo y la implementación de nuevos

procesos y herramientas para gestionar la extracción y la transformación de los
datos operacionales, la administración de los usuarios, etc. En el curso del
desarrollo de un Data Warehouse, deben ser tomadas un número considerable
de decisiones ligadas a la gestión operativa del mismo. Por ejemplo:
• ¿Con qué frecuencia se efectuarán las cargas y transformaciones sobre

los datos: diariamente, semanalmente?
• ¿Cuántos datos compondrán cada carga y cuánto durará ésta? ¿Cuánto
tiempo tardará el sistema en recalcular los índices, la actualización de
metadatos y otras tareas administrativas?
• ¿Cómo se efectuarán las tareas de copia de seguridad?
2.3.3.3 Rendimiento
El último árbitro en el éxito o fracaso del proyecto será el rendimiento del

sistema. Un Data Warehouse tiene que ayudar a los usuarios a realizar su
trabajo de forma más efectiva y eficiente. Si los tiempos de respuesta no son
los adecuados, los usuarios no utilizarán el sistema, la empresa no sacará
beneficio de la inversión, y el proyecto podría tener un ROI negativo. Por estos
motivos, la dimensión tecnológica del rendimiento debe ser tenida muy en
cuenta en el desarrollo de la estrategia global.
La arquitectura de hardware y la arquitectura de la base de datos impactan

directamente en el rendimiento de un sistema. En ambos sentidos es
importante considerar opciones de paralelismo, ya que su impacto en el
rendimiento proporcionará con seguridad beneficios importantes.
2.3.4 Criterios de la determinación de los requerimientos de la

información
La determinación de cuales son los requerimientos de información de la

organización ha sido siempre considerada como uno de los elementos críticos
dentro del proceso de diseño y desarrollo de aplicaciones de software; es en
esta fase en donde existe la mayor interacción entre el diseñador de la
aplicación y el usuario final.
Por otro lado recordemos que las aplicaciones de Data Warehouse son
plataformas tecnológicas en donde se integra toda la información histórica de
una empresa, la misma que en muchos casos proviene de diferentes fuentes
heterogéneas.
Ahora bien un Data Warehouse entre sus principales características aparte de

la integración y su no volatibilidad es la de la variación en el tiempo, éste último
36
hace que tenga mucho más impacto, el cómo debe ser recolectada la
información y almacenada; es por esto, que la estructura de la información que
se encuentra a nivel de un sistema transaccional es completamente diferente al
que encontramos en un Data Warehouse.
Típicamente un Data Warehouse contiene información histórica de algunos

años, con esto estamos diciendo que la variable (tiempo) se encuentra
presente en las estructuras claves de un Data Warehouse ya se de forma
implícita o explícita, por ejemplo días, meses, años, trimestre, semestre, etc.
Normalmente esta variable "el tiempo" está presente en todas las consultas
que se ejecutan contra el Data Warehouse; es decir es la base de cualquier
consulta que se realice al Data Warehouse.
A los Data Warehouse se los puede comparar con "fotos instantáneas" de la

realidad de la organización en un período de tiempo determinado, estas "fotos
instantáneas" son el reflejo de lo que pasaba en ese preciso momento en el
negocio, las mismas son (o por lo menos deberían ser) únicas y no estar
sujetas a continuas actualizaciones ya que esto no permitirá tener un análisis
de la realidad de la empresa1.
Con todo esto lo que se puede deducir es que existen diferencias importantes
en cuales son los requerimientos de datos entre los sistemas transaccionales y
los Data Warehouse, las mismas que tienen un impacto importante en el diseño
de los Data Warehouse; entre las que podemos citar están las presentadas a
continuación.
• Tener una visión integral del negocio asegura que toda la información
necesaria este disponible, con esto el producto final (aplicación) cumplirá
los objetivos planteados obteniendo la información que se necesita y en
el formato adecuado; permitiendo ejecutar muchas consultas de
diferentes características. De ahí la importancia que en la fase inicial de
determinación de requerimientos de un Data Warehouse involucrar a
personas con un excelente conocimiento del negocio; esto
complementado con una metodología que permita evaluar diferentes
escenarios del negocio permitirá tener un buen diseño de la aplicación.
• Evitar cambiar constantemente el modelo de datos, esto es algo
bastante complejo en cualquier aplicación y mucho mas en un Data
Warehouse y es básicamente por dos razones: (1) el modelo de datos
en un Data Warehouse es mucho más complejo, y (2) el desempeño de
las consultas se deteriora considerablemente debido a que los Data
Warehouse realizan consultas a grandes cantidades de datos.
• Involucrar a los usuarios finales es muy importante durante la etapa de
definición de los requerimientos del sistema. Las actitudes de los
usuarios a los sistemas y su desempeño están muy influencias por la
medida en la que haya sido involucrado en el desarrollo del sistema. A
diferencia de una aplicación transaccional los Data Warehouse de una
mayor participación de los usuarios en la etapa de determinación de
requerimientos; cuando se habla de usuarios se refiere a los usuarios de
todos los niveles tales como usuarios de los datos hasta los
responsables en la toma de decisiones.
37
• Asegurarse que toda la información que poseen los miembros del equipo
sea considerada, con esto se refiere a que en muchos casos los
miembros del equipo obvian mencionar algo que ellos piensa que es
muy propio de su unidad o departamento y que piensan que no agregará
valor dentro de lo que es el diseño de la aplicación; esta información no
revelada puede ser valiosa para validar el modelo ya que en muchos
casos es usada en varias áreas de la empresa sin saberlo.
• También es muy importante que los directores de la empresa y los
usuarios finales tengan bien clara la complejidad de construir un Data
Warehouse y el tiempo que conlleva hacerlo especialmente al obtener
los datos. En muchos casos esta es la parte más demorada debido a la
heterogeneidad de las fuentes de datos, el planear cuanto se demorará
transformar estos datos en el formato del Data Warehouse no es una
ciencia exacta y es por esto que los directores deben tener bien claro
que esto puede afectar el tiempo de implementación de la aplicación.
• Evitar que la información provista por el Data Warehouse este sujeta a
interpretaciones erróneas, esto es común a medida que la aplicación va
siendo introducida dentro de la empresa. Es recomendable que se
provea de ejemplos de tal manera que los mismos responsables del
negocio la validen.
• Es muy importante tener el apoyo de un ejecutivo de la organización,
está muy claro que los miembros del departamento de IT son claves en
el desarrollo del Data Warehouse ya que son ellos los que ayudarán a la
organización a plasmar todo dentro del Data Warehouse, pero también
es verdad que los de IT no son los que deberían diferenciar si al
encontrar algún inconveniente este proviene de un área en especial de
la empresa, es aquí donde entra en juego el ejecutivo de la
organización, ellos son los llamados a dar estas prioridades y a solventar
las dificultades dando los lineamientos necesarios para solucionar los
inconvenientes. Otro aspecto importante de la participación de un
gerente de la empresa por ejemplo es que ellos puedan proveer de
datos o información que posiblemente en ese momento no va a ser
utilizada pero que en un futuro muy cercano pueda ser de gran utilidad.
• El último y tal vez el mas complicado de aplicar es el de poder
diferenciar que es realmente útil para la empresa dentro de una
aplicación de Data Warehouse. El hecho de que se recomienda una
mayor participación de los usuarios de la aplicación en la definición de
las necesidades de información hace que en muchos casos se tenga
una lista muy extensa de "necesidades", hay que saber diferenciar entre
estas necesidades lo que realmente agrega valor a la organización y que
es de utilidad para todos.
1
En muchos casos el cambiar una información del Data Warehouse puede ser considerado
falto de ética o hasta ilegal.
Capítulo 3.- Data warehouse:

herramientas de verificación y
38
técnicas de descubrimiento de
información
OBJETIVOS
- Las distintas aproximaciones para la explotación de un Datawarehouse.
- Los fundamentos de los procesos de verificación de hipótesis.
- Las características principales de las herramientas de consultas e informes.
- Los tipos de consultas y su planificación.
- Las herramientas de análisis multidimensional: introducción a la tecnología OLAP.
- Las características de las bases de datos multidimensionales.
- Las ventajas que aporta OLAP frente a otras técnicas.
- Descubrir la información referente a la verificación de hipótesis: objetivos de la minería de

datos.
- Reconocer las diferencias entre las técnicas estadísticas y la minería de datos.
- Conocer las técnicas, operaciones y aplicaciones de minería de datos, y tipos de análisis por
sectores.
3.1 Introducción
Un SIATD permite no solo construir, validar y refinar modelos aplicándolos a
datos extraídos a partir de la base de datos propia del sistema, de la base de
datos corporativa de la organización o de otros suministradores externos de
datos. También incluye las herramientas necesarias para representar estos
datos o los resultados de las aplicaciones de los modelos, según diferentes
formas gráficas. Esto lo podemos ver con más claridad en la figura 3.1 en
donde se presenta la arquitectura típica de un sistema de apoyo a la toma de
decisiones.
39
Figura 3.1: Arquitectura típica de n SIAPD.
La diversidad de fuentes de información de las que se alimentan los SIAPD

provee una excelente oportunidad para explotar y dar un soporte efectivo a las
decisiones empresariales; para esto, se plantea el uso de dos tipos de
herramientas:
• Herramientas de verificación de hipótesis, donde se busca, analiza y

presenta información resultante de un proceso de consulta, más o
menos complejo y extenso.
• Herramientas de descubrimiento de información, donde se pretende
extraer conocimiento sobre patrones, tendencias y características
ocultas dentro de los datos.
En el primer caso, el son básicamente de herramientas de consulta e informes

(query & reporting) y herramientas de análisis multidimensional. En el segundo
caso se refiere a herramientas de minería de datos (Data Mining).
3.2 Herramientas de verificación

3.2.1 Funcionalidades y beneficios
Las herramientas de verificación de hipótesis permiten consultar información de

interés la misma que se encuentra estructurada en un Data Warehouse, estas
consultas permiten:
• Dar soluciones analíticas para áreas funcionales del negocio
- Por medio de la exploración interactiva de los datos en términos de

negocio.
- A través del procesado de consultas multidimensionales que calculan,

consolidan y recuperan información cambiante en el tiempo.
• Explorar los datos según las necesidades
40
- Facilitando la comprensión del negocio mediante informes (¿Qué ha

pasado?), planificación (¿Qué pasaría si?) y predicción (¿Qué vendrá
después?)
- En el contexto del e-business, permiten mediar la efectividad de los

sitios Web, analizando la información generada de forma efectiva e
integrándola con aquella proveniente de otros canales de venta.
- Explotando y consolidando los resultados de los procesos de minería

de datos, incorporando nuevas métricas.
• Visualizaciones dinámicas a través de informes inteligentes
- Generando informes para la presentación y publicación de resultados

complementándose con otras soluciones analíticas.
3.2.2 Herramientas de consulta e informes
Dentro de las herramientas de verificación de hipótesis, las soluciones más

sencillas son las de consulta e informes. Como su propio nombre indica, la
funcionalidad de estas herramientas reside en dos características principales:
• Capacidad para realizar consultas de forma sencilla.
La idea de estas soluciones es enmascarar la dificultad de acceso a los

datos en términos de lenguajes de consulta (SQL) al usuario final. Este
no tiene que ser un especialista en bases de datos; uno de los
principales inconvenientes de la explotación de la información en los
sistemas operacionales es que los usuarios de negocio necesitan
técnicos del departamento de tecnologías de la información para que les
hagan las consultas. En este sentido, lo que hacen estas herramientas
es crear una especie de capa semántica entre los datos y el usuario de
forma que este puede interrogar al Data Warehouse en términos de
negocio.
• Capacidad para generar informes.
Consiste en presentar los resultados de una consulta empleando

distintos tipos de plantillas, ya sean predefinidas o creadas por el
usuario. Además, permiten automatizar el proceso, pudiéndose
predefinir la ejecución periódica tanto de la consulta como del informe.
3.2.2.1 Fases del proceso de consulta
Con independencia de las características que presenten unas u otras

herramientas del mercado, un proceso de consulta está formado por cinco
fases fundamentales:
• Definición de la consulta. Aunque pueda parecer obvio decirlo,

necesitamos algún tipo de información que queremos recuperar del Data
Warehouse1. Esto es importante en cuanto marca la principal diferencia
41
entre las herramientas de verificación de hipótesis y las de

descubrimiento de información. Para el caso de las herramientas de
verificación de hipótesis es necesario disponer de una hipótesis que se
quiere verificar. Por ejemplo, si las ventas de determinados productos en
la región A han sido superiores a las de la región B en el primer
semestre del año. Normalmente, una respuesta sencilla un SI o un NO
escueto no son de mucha utilidad.
Lo que las empresas desean es resultados por región para cada familia
de productos. Pero éste tipo de consultas requieren en de conocimientos
técnicos profundos que los encargados de la toma de decisiones
difícilmente poseen. Plantear la consulta anterior en términos de SQL,
por ejemplo, requiere ciertos conocimientos técnicos. Sin embargo, las
soluciones de consulta incorporan una capa semántica, que debe ser
previamente definida en función del modelo de datos subyacente, que
permite, de forma gráfica e intuitiva, definir la consulta empleando
lenguaje natural.
• Acceso a los datos. Comprende la ejecución de la consulta contra el
Data Warehouse, así como la recuperación de los datos resultantes.
• Manipulación y cálculo. A la vista de los resultados, el usuario puede
estar interesado en realizar ciertos cálculos sobre los datos, extrayendo
promedios por región, o definiendo ratios.
• Elaboración del informe. La información recuperada y derivada se
formatea mediante tablas y gráficos.
• Liberación del informe. El informe construido se libera a los usuarios
finales. Es frecuente que se publique dentro de la Intranet corporativa.
En la figura 3.2 se puede observar el flujo del proceso de consulta con cada
uno de los elementos que lo constituyen.
Figura 3.2: Fases del proceso de consulta.
42
1
Hay que decir que con una herramienta de query & reporting se puede atacar cualquier tipo
de base de datos relacional, en el sentido que tanto se pueden efectuar consultas contra un
sistema operacional como contra un datawarehouse. Por los diferentes motivos expuestos a lo
largo de este módulo, la segunda opción es la preferible.
3.2.2.2 Tipos y planificación de las consultas
Es frecuente que existan cierto tipo de consultas que se haya que repetir con
frecuencia; la información que se está buscando es la misma, así como el
formato final que se le dará. Lo que cambia son los datos de origen sobre los
que se realizará la consulta.
En el día a día de las empresas se ejecutan una gran variedad de consultas a

una fuente de datos como por ejemplo un Data Warehouse, esto nos hace
pensar que en muchos casos estas consultas son muy similares unas de otras,
o en otros casos las consultas son esporádicas o simplemente generados para
determinados momentos dentro de la organización, por ejemplo un cierre de
año de ventas. Es por esto que es necesario categorizar los diferentes tipos de
consultas que se realizan con el fin de poder planear su ejecución, tiempos de
procesamiento y formatos de presentación.
Para este tipo de consultas, no es necesario que el usuario repita el mismo

proceso cada vez. Son consultas empaquetadas que, por decirlo de alguna
manera, se ejecutan solas. Es decir, se definen e introducen dentro de un
programador de tareas que se encarga de ejecutarlas cuando sea requerido: al
inicio de cada mes, para estudios de inventario, o al cierre del trimestre, para
obtener de forma automática cuales han sido los resultados de las ventas.
Es por esto que existen básicamente los siguientes tipos de consultas:
• Consultas empaquetadas.
Se ejecutan periódicamente, sin necesidad de intervención del usuario.
Desde el punto de vista del administrador del Data Warehouse la carga
de proceso que suponen es estable ya que siempre consumen lo mismo.
Esto es importante, ya que permite planificar su ejecución y ubicación en
función de los tiempos de proceso consumidos y de la carga del sistema.
43
Figura 3.3: Uso de las herramientas de consulta.
• Consultas ad-hoc.
Son consultas recurrentes y aleatorias, en el sentido en que responden a
necesidades de información concretas. La carga de proceso es variable
e impredecible, en este sentido, y cuando estas consultas provienen de
los usuarios finales, hay que tener cuidado con los tiempos de proceso
que requieren, ya que en función del número podría llegar a colapsar el
sistema.
Cuando se diseña y dimensiona un Data Warehouse, es muy importante

analizar de antemano el uso que se hará de él. Ya no sólo en términos de
número de usuarios concurrentes que accederán a su información, sino del tipo
de consultas que estos quieran realizar. No es lo mismo efectuar un número
considerable de consultas empaquetas, cuya carga de proceso es conocida y
puede ser planificada dentro del uso del sistema, a realizar algunas consultas
ad-hoc en donde la carga del sistema no se la puede preestablecer debido a la
diversidad de posibilidades de consulta.
3.2.3 Herramientas de análisis multidimensional
Aunque facilitan enormemente el trabajo y la recuperación de los datos, las

herramientas de consulta y reporte no permiten un análisis exhaustivo de la
información ya que son herramientas de acceso estático y de consultas
relativamente sencillas. En el ambiente empresarial existen preguntas más
complejas de negocio a las cuales las herramientas de consulta no pueden dar
respuesta. Por ejemplo: ¿Cuál es margen obtenido para el tercer trimestre a lo
largo de la región sudeste para mis familias de productos? La complejidad no
44
está en la pregunta en sí, sino en las múltiples dimensiones de los datos

requeridos, como tiempo, región o productos. Además, cuando un analista está
interesado en este tipo de información, normalmente necesita cambiar la forma
de ver de los datos con frecuencia. Es decir, en un momento estará interesado
en ver los resultados por región y familia de productos, mientras que en otro,
querrá analizarlos por día y región.
En otras ocasiones es razonable que quiera ver toda la información a distintos

niveles de agregación: región, provincia o municipio, desde el punto de vista
geográfico, o mes, semana, día, etc. Con una herramienta de consulta, si se
quiere cambiar la forma de ver los datos no queda más remedio que replantear
la consulta y volver a lanzarla. Además, la agregación tampoco es uno de sus
fuertes. No hay que olvidar que, cuando se están planteando estas
necesidades de análisis, el analista necesita respuestas rápidas en tiempo real.
Es decir, que la herramienta que le de soporte sea altamente interactiva,
permitiéndole efectuar cambios en la forma de ver y agregar los datos y ver y
analizar los resultados de forma rápida.
Figura 3.4: Dimensiones y hechos en análisis multidimensional.
Una situación muy popular sucedió en una cadena de víveres en USA.

Utilizando una herramienta de análisis multidimensional para estudiar el
comportamiento de sus clientes, encontraron relaciones interesantes entre
pañales, cervezas, hombres, y día de la semana. Encontraron que los días
jueves y sábado, los hombres que compraban pañales también compraban
cerveza. Información como esa, que no siempre es evidente a primera vista,
puede ser utilizada para reubicar la mercancía en lugares más estratégicos, en
este ejemplo, manteniendo a los pañales y a las cervezas cercanas unos de
otros.
Este tipo de análisis es posible a través de las herramientas de análisis

multidimensional, concretamente las herramientas OLAP (on line analytical
procesing).
45
Procesado OLAP
OLAP (On Line Analystical Processing) es una forma de procesado multidimensional de

los datos:
- Vista multidimensional lógica de los datos
Con independencia de cómo están almacenados

- Análisis multidimensional
Slice & Dice, pivotado, drill-down, roll-up, etc.

- Motor de cálculo y transformaciones
Cálculo de estadísticas y agregados a lo largo de distintas dimensiones

- Soporte de funciones avanzadas
Predicción, simulación, análisis de tendencias, análisis estadístico

- Herramientas de presentación e informes
Distintas posibilidades de almacenamiento

- Relacional (ROLAP), multidimensional (MOLAP)
OLAP permite tener la información preempaquetada y estructurada permitiendo

un procesado multidimensional de los datos. Una de sus particularidades es
que previamente la información se agrega de forma sistemática, de forma que
el usuario tiene tiempos de respuesta muy bajos.
Por un lado las aplicaciones de Data Warehouse obtienen información de

fuentes de datos bastante heterogéneas como por ejemplo los sistemas de
contabilidad, producción, almacén; etc. Estos sistemas se los conoce como
sistemas OLTP (on line transaction processing).
OLAP por su parte forma parte de la familia de las aplicaciones de Business

Intelligence; estas permiten la navegación o consulta a través de estructuras de
datos multidimensionales bastante complejas sin llegar hasta la complejidad de
permitir simulaciones.
En la figura 3.5 se gráfica la naturaleza de las herramientas OLAP y su papel

protagónico dentro de los procesos de toma de decisiones en la organización.
46
Figura 3.5: Naturaleza de una herramienta OLAP1.
1
Fuente: SCHWARZ, S.; SEIFRIED, P.; y WINTER, R. (1998). On-Line Analytical Processing
for Accounting: Potentials, Application, and Design Methodology. En Hoadley, E.; y, Benbasat,
I. (Eds.). Americas Conference on Information Systems. Baltimore, 1998. pp. 42-44.
3.2.4 Dimensiones y hechos
Los datos relacionales, aquellos manejados por los gestores de bases de datos
convencionales, pueden ser considerados bidimensionales, ya que cada unidad
de dato, denominada hecho, está correlacionada con una fila y una columna,
cada una de las cuales puede ser considerada una dimensión. Una dimensión
es una clasificación de alguna actividad en una organización por la cual se
puede medir su éxito. Por ejemplo, puede monitorear sus ventas contra los
productos o clientes en un periodo de tiempo.
Una característica clave de las aplicaciones OLAP, es que estas dimensiones

no tienden a cambiar a lo largo del tiempo. Adicionalmente OLAP es análisis de
cubos multidimensionales es decir se puede ver un conjunto de datos del
negocio de muchas y diversas formas sin mucho esfuerzo.
Cada dimensión está integrada por componentes individuales, denominados

miembros. Por ejemplo, los trimestres del año pueden considerarse miembros
de la dimensión Tiempo, y los productos individuales pueden ser miembros de
la dimensión Productos. De esta forma, es posible tener jerarquías de
diferentes miembros en las dimensiones, como meses dentro de los trimestres
en la dimensión temporal. Al contrario que las dimensiones, los miembros
tienden a cambiar a lo largo del tiempo. Por ejemplo, a medida que un negocio
47
va creciendo, la gama de productos tiende a incrementarse e, idealmente, la

lista de clientes hará lo mismo.
Resumiendo, los hechos son los detalles del negocio que se pretenden medir
(ventas, presupuestos, etc.), mientras que las dimensiones representan los ejes
a través de los cuales se quieren medir los hechos (geografías, productos,
tiempo, etc).
3.2.5 Navegación sobre los datos
La ventaja de las herramientas OLAP reside en sus características para

navegar por los datos. Esta facilidad de navegación nos permite:
- La posibilidad de cambiar los ejes de análisis (slice & dice).
- La posibilidad de cambiar de forma interactiva los niveles de agregación (drill

down & roll up).
• Rotar y Rebanar (slice & dice): Rotar es aventar el cubo como si fuera
un dado para obtener una nueva cara del cubo. Rebanar es cambiar el
valor de una dimensión por otro valor, por ejemplo, de las ventas de
Enero a las ventas de Febrero, "Ventas por producto" puede cambiarse
fácilmente a "Ventas por vendedor".
• Taladrar (drill down & roll up): Consiste en abrir los datos de las
dimensiones se con el fin de obtener más detalle; es decir una especie
de taladro que se hunde más en la información. Con esta facilidad es
posible ver información geográfica y luego fácilmente pasar de un
continente a un país y luego a una ciudad en particular.
Estas dos características son las que más claramente definen la tecnología
OLAP, sobre todo por que le confieren sus características de interactividad. Por
ejemplo:
- En drill down, el usuario puede analizar sus ventas por continente, bajar a
nivel de región, país, etc.
- Mientras en slice & dice, además, puede cambiar los ejes de búsqueda para
analizar sus ventas mensuales respecto a las diferentes marcas de productos,
observando la cifra de negocio y examinando después los márgenes derivados.
Las herramientas OLAP permiten realizar estos cambios en la forma de

analizar los datos de forma intuitiva y gráfica. El usuario puede pasar de un
análisis a otro sin tener que definir nuevas consultas. Esta es la principal
característica que diferencia el OLAP respecto a las herramientas de consulta
más convencionales.
Sin embargo, las soluciones OLAP presentan algunos problemas. El principal

está derivado de su aproximación propietaria, debido a que cada herramienta
tiene su propio modelo de almacenamiento de los datos. El segundo problema
es que el volumen de datos alcanza rápidamente un tamaño importante. Para
48
garantizar una interactividad total en todo el proceso, estas herramientas

preempaquetan y precalculan las informaciones en todas las intersecciones de
la estructura multidimensional, normalmente denominada cubo. Esta
particularidad genera grandes volúmenes de datos el mismo que aumenta de
forma exponencial con el número de usuarios, ya que cuando los puntos de
vista sobre la información se multiplican, deben crearse nuevos ejes de análisis
para responder a las distintas peticiones generando nuevos datos calculados y
agregados.
En la figura 3.6 se presentan las características de las herramientas de análisis

multidimencional.
Figura 3.6: Características de las herramientas de análisis multidimencional.
3.2.6 Arquitecturas OLAP
Una vez decidido emplear un entorno de consulta OLAP, se debe de elegir

entre R-OLAP y M-OLAP. En ambos la interfaz de la capa analítica es
básicamente la misma siendo el almacenamiento físico su diferencia.
49
• R-OLAP (relational on line analytical processing) es la arquitectura de

base de datos multidimensional en la que los datos se encuentran
almacenados en una base de datos relacional, la cual tiene forma de
estrella (también llamada copo de nieve o araña). Se usan, por tanto,
administradores o gestores de base de datos relacionales (DBMS en su
sigla en inglés). En R-OLAP, en principio la base de datos sólo
almacena información relativa a los datos en detalle, evitando
acumulados (evitando redundancia).
• M-OLAP (multidimensional on-line analytical processing), en cambio, los
datos se encuentran almacenados en ficheros con estructura
multidimensional (en ficheros en formato propietario), los cuales
reservan espacio para todas las combinaciones de todos los posibles
valores de todas las dimensiones de cada una de las variables,
incluyendo los valores de dimensión que representan acumulados. Es
decir, un sistema M-OLAP contiene precalculados (almacenados) los
resultados de todas las posibles consultas a la base de datos.
Las diferencias concretas entre ambos se pueden sitentizar de la siguiente

manera:
• En M-OLAP se consiguen consultas muy rápidas a costa de mayores

necesidades de almacenamiento, y retardos en las modificaciones (que
no deberían producirse salvo excepcionalmente), y largos procesos
batch de carga y cálculo de acumulados. Mientras, en R-OLAP, al
contener sólo las combinaciones de valores de dimensión que
representan detalle, es decir, al no haber redundancia, el fichero de base
de datos es pequeño. En el caso de procesos batch de carga, en R-
OLAP son rápidos (ya que no se requiere agregación), y sin embargo,
las consultas pueden ser muy lentas, por lo que se aplica la solución de
tener al menos algunas consultas precalculadas. En M-OLAP, el gran
tamaño de las variables multidimensionales o el retardo en los procesos
batch puede ser un inconveniente.
• Las bases de datos MOLAP tienen limitaciones en el tamaño físico del
conjunto de datos que pueden manejar. Existe, además, un límite en el
número de dimensiones que pueden manejar dando a la vez un
rendimiento razonable. La arquitectura MOLAP es muy buena en
situaciones en que los datos se puedan descomponer en grupos más
pequeños. Cuanto más pequeños sean los conjuntos de agregación,
más rápido será el tiempo de compilación. Por ejemplo, una aplicación
de contabilidad es la candidata ideal para MOLAP porque sus conjuntos
de datos se pueden descomponer habitualmente por departamentos. La
arquitectura ROLAP tiene la ventaja de permitir su ejecución contra
grandes conjuntos de datos. Una vez que se ha estabilizado el modelo
que identifica dónde se deben encontrar los datos origen, la herramienta
OLAP ya está lista para hacer consultas en los datos vivos. Como se
está trabajando directamente contra estos, su "frescura" está asegurada.
Además, ROLAP no tiene, normalmente, las mismas limitaciones
referentes a las dimensiones, al contrario que MOLAP. Sin embargo, en
aplicaciones críticas, donde el tiempo de respuesta es fundamental, la
solución MOLAP es sin duda la preferida.
50
3.3 Herramientas de búsqueda de la

información
3.3.1 Descubrimiento de información y minería de datos
Las empresas generan y recopilan enormes volúmenes de datos provenientes

de sus operaciones diarias (facturación, inventario, etc.); los que luego son
capturados y mantenidos en los correspondientes departamentos. El problema
de muchas empresas radica en su incapacidad para capitalizar el valor
presente en los datos que maneja debido, sobre todo, a que la información
implícita en los datos no es fácil de discernir. Sin embargo, para poder competir
en el entorno actual, las personas encargadas de la toma de decisiones deben
ser capaces de identificar y utilizar la información contenida en los datos
recogidos por la empresa. Por ejemplo, después de identificar a un grupo de
clientes casados, con dos sueldos por familia, y una renta elevada, el gestor de
cuentas de un banco puede enviarles información sobre los fondos de inversión
ofrecidos por el banco, en un intento de convencerles de que usen sus
servicios en lugar de hacerlo en la competencia.
Dentro de este enfoque de descubrir y extraer la información residente en los

datos, la minería de datos (Data Mining) juega un papel fundamental.
Básicamente, podemos dar la siguiente definición:
"La minería de datos es el proceso de extraer información comprensible, válida

y previamente desconocida, a partir de grandes volúmenes de datos, y
dedicarla al soporte de la toma de decisiones de negocio"
La información extraída puede ser empleada para construir un modelo de

predicción o clasificación, identificar relaciones entre registros de una base de
datos o proporcionar una idea resumida del contenido de una base de datos.
La minería de datos consiste en un número de operaciones cada una de las

cuales está soportada por una variedad de técnicas matemáticas, como redes
neuronales, algoritmos de segmentación conceptual, análisis de asociaciones o
sistemas de inducción de reglas1.
En muchos dominios de aplicación, como marketing analítico, análisis

financiero, detección de fraude, etc., la extracción de la información requiere el
uso conjunto de distintas operaciones y técnicas de minería de datos. Sin
embargo, lo que se obtiene como resultado del Data Mining no es nuevo, por
años los estadísticos, con sus limitaciones, lo han realizado manualmente.
Dentro del conjunto de soluciones de Business Intelligence, la minería de datos

juega un papel clave; ésta permite extraer información a unos niveles donde las
herramientas de consulta o análisis multidimensional no pueden llegar. Es
importante no perder de vista cual es la función de cada una de las piezas que
componen una solución de Business Intelligence y la minería de datos ya que
esta no es una solución de negocios, es una tecnología. En cualquier caso, y
51
es otro de los puntos que se abordarán más adelante, el aprovechamiento

máximo de una solución se consigue cuando se emplean las distintas
herramientas de forma conjunta.
En la figura 3.7 se puede observar que la línea que une la parte de Data
Warehouse con la de minería de datos tiene dos cabezas. Esto quiere decir
que la minería de datos no es un fin en si mismo, sino que los mejores
resultados se obtienen cuando la información generada por ésta se realimenta
en el Data Warehouse, pudiéndose explotar posteriormente mediante los
sistemas de verificación de hipótesis.
Figura 3.7: Posición de la minería de datos dentro de las soluciones de Business Intelligence.
El objetivo de identificar y utilizar la información presente en los datos tiene tres

requerimientos básicos:
• Los datos capturados deben ser integrados dentro de una vista

corporativa, en lugar de diferentes vistas específicas departamentales.
Estos, además, pueden ser enriquecidos con datos externos a la
organización.
• La información contenida en los datos integrados debe ser extraída,
mediante las operaciones y técnicas adecuadas de minería de datos.
• La información extraída debe ser organizada y presentada en un formato
que permita la toma de decisiones.
La organización de la información extraída está condicionada por el objetivo

global de la operación de toma de decisiones. Por ejemplo, mediante la
definición de un objetivo consistente como el de identificar clientes con alta
propensión a comprar fondos de inversión; con esto el gestor de cuentas del
banco está indicando que quiere segmentar la base de datos de clientes en
52
grupos homogéneos (urbanos, casados, nivel de ingresos, bajo riesgo, etc.) y

establecer la vulnerabilidad de cada grupo con respecto a los diferentes tipos
de campañas promocionales.
Otro ejemplo sería el de una compañía de celulares, donde su gerente de

marketing desea renovar el contrato de sus potenciales clientes y solicita
categorizarlos por aportaciones a la empresa y necesidades particulares para
luego poder persuadirlos otorgándoles obsequios como un teléfono nuevo,
minutos gratis, descuentos, etc. Para lograr un buen sistema de minería de
datos éste debe cumplir con dos requerimientos esenciales:
• Debe interactuar con el Data Warehouse, el mismo que debe

organizar los datos operacionales en formas que facilitan el análisis.
• Debe relacionarse con los sistemas de soporte a la decisión que
utilizan los analistas de negocio, de tal manera que se planteen
correctamente las bases de lo que necesitan como información.
Si bien la interacción con el Data Warehouse no es un requisito obligatorio, ya

que la mayoría de los sistemas de minería de datos pueden trabajar también
con datos almacenados en ficheros o bases de datos operacionales, los
procesos de minería contra un Data Warehouse producen resultados de mayor
calidad ya que permiten una mayor integración y calidad de la información
obtenida.
1
No es el objetivo de esta asignatura plantear los fundamentos matemáticos de las técnicas de
minería de datos. En la bibliografía se incluyen algunas referencias que permiten profundizar
en este tema.
3.3.2 El proceso de minería de datos

3.3.2.1 De los datos a las decisiones
Los métodos de minería de datos encuentran numerosos ámbitos de

aplicación, tanto por industrias como con una vertiente más horizontal. Lo que
es evidente es que tanto el conjunto de los datos de partida, como el objetivo
de negocio al que se quiere dar respuesta vendrán condicionados por el sector
en el que se mueva la empresa. Adicionando que el impacto de la minería de
datos en el negocio depende del proceso de negocios, no del proceso de la
minería de datos.
Podemos citar algunos ejemplos en donde la minería de datos aporta grandes

beneficios, por ejemplo:
• En el análisis de riesgo, las compañías aseguradoras pueden querer

buscar las características de clientes de alto riesgo, y las compañías
53
bancarias, determinar si un crédito puede concederse o no a cierta

persona.
• En marketing directo, los sistemas de minería de datos ofrecen un medio
de determinar las características (edad, región, profesión, etc.) de la
población a quien dirigirse para una compaña determinada. El contacto
se efectuará al subconjunto de la población que ofrezca la mayor
probabilidad de respuesta.
• En el sector de la distribución, es posible determinar perfiles de
consumidores, el efecto de períodos de promoción, así como el
contenido de la cesta de la compra canasta familiar (market basket
analysis). Esto último es de vital importante importancia de cara al
diseño de promociones, ubicación de productos en los lineales, etc.
• En sectores de fuerte competencia, la minería de datos puede ayudar a
la empresa a identificar los clientes con mayor propensión de abandonar
la empresa por un competidor. Esta identificación temprana permitirá la
puesta en marcha de acciones de marketing con el fin de impedir la
marcha del cliente permitiéndole ser proactiva y plantear estrategias
para la manutención de sus clientes.
3.3.2.1.1 Aplicaciones de la minería de datos
En la figura 3.8 se puede ver otros ejemplos de entornos de aplicación y

ámbitos de decisión sobre los cuales la minería de datos puede aportar
grandes beneficios.
Figura 3.8: Entornos de aplicación y ámbitos de decisión sobre los cuales la minería de datos
puede aportar grandes beneficios.
Sin importar la naturaleza del negocio las operaciones de Data Mining

necesitan de una fuente de datos. Esta fuente puede estar estructurada en un
54
Data Warehouse; ahora bien, la construcción Data Warehouse constituye

importe paso para la consecución de un proceso de Data Mining exitoso. Tal es
así que la construcción de un repositorio de datos tipo Data Warehouse
representa un esfuerzo importante de integración, limpieza de información,
integridad y carga de datos que en muchos casos toma muchos años y una
importante suma de dinero. Por otro lado, las operaciones de Data Mining
pueden prescindir de un repositorio de datos tipo Data Warehouse debido a la
versatilidad que poseen de poder trabajar normalmente extrayendo información
de una o más bases de datos operacionales, o de diferentes Data Marts.
Un Data Warehouse por sí solo no es suficiente; éste necesita un elemento

adicional para la exploración de la información. Para esto se utilizan las
técnicas OLAP las que se complementan con las técnicas de Data Mining con
el único objetivo de obtener diferentes vistas de los datos de un Data
Warehouse. Básicamente la diferencia entre OLAP y las técnicas de Data
Mining es la herramienta de agregación que poseen las herramientas OLAP
mientras que para el caso de Data Mining el enfoque esta hacia el análisis
detallado.
3.3.2.1.2 Machine Learning y Data Mining
Según (Langley & Simon,1995)1 Machine Learning es el estudio de los

métodos computacionales que permiten mejorar el rendimiento a través de la
automatización de los métodos de adquisición de conocimiento por medio de la
experiencia. En otras palabras el Machine Learning automatiza todas las tareas
de adquisición de conocimiento, que normalmente tomarían mucho tiempo a
los humanos, por métodos de mayor exactitud y eficiencia que facilitan las
tareas de análisis de datos. Por esta razón, constituyen una parte esencial en
los procesos de Data Mining, sin excluir los otros procesos importantes tales
como: mantenimiento de la base de datos, formato y limpieza de los datos,
agrupación y visualización de los datos y finalmente el más importante el
conocimiento humano para alimentar correctamente los datos y poder evaluar
los resultados obtenidos.
Entre los algoritmos que facilitan el Machine Learning tenemos:
• Redes Neurales, son sistemas que están modelados de forma similar al

cerebro humano. Al igual que el cerebro humano en donde las neuronas
se encuentran interconectadas las redes neurales simulan esta
interconexión neuronal.
Dichas redes neurales poseen igual funcionalidad que las cerebrales

debido a que su estructura puede cambiar a través de estímulos
permitiéndole un aprendizaje. La desventaja que presenta las redes
neurales es que la construcción del modelo inicial debido a que el
ingreso de los datos iniciales se torna complejo debido a las tareas de
transformación de los mismos. Además la gran variedad de vistas exigen
por parte de los analistas una importante cantidad de tiempo, esto hace
que el entendimiento del funcionamiento de las redes neurales no se
obvio.
55
• Razonamiento basado en casos, es una tecnología que plantea la

resolución de problemas planteados a través del uso de experiencias y
soluciones pasadas. Es decir, hace uso de los casos; un caso se refiere
a un problema específico el mismo al que se planteó una solución; luego
estos casos son almacenados. En caso de que se presente un problema
se plantea una búsqueda entre todos los casos almacenados con el fin
de encontrar uno similar; una ves encontrado la solución propuesta por
el caso es aplicada al problema; finalmente esta nueva solución a este
nuevo problema planteado es almacenada para futuras referencias. La
desventaja de este algoritmo esta en que se basa en experiencias
pasadas y soluciones que fueron propuestas en el pasado las mismas
que no necesariamente fueron las más adecuadas; esta aproximación
hace que en muchos un error sea nuevamente cometido.
• Algoritmos genéticos, está basado en el proceso biológico de
selección, reproducción, mutación y supervivencia con el fin de obtener
soluciones para permitir buenas predicciones y clasificación de los
problemas. Este algoritmo generalmente es utilizado para formular
hipótesis acerca de dependencias de las variables representadas en
reglas de asociación. Una desventaja es que los resultados provistos por
este tipo de algoritmo no es fácil de interpretar.
• Árboles de decisión, Muy similares a los utilizados en los análisis de
decisión; básicamente se constituyen por nodos intermedios que
representan decisiones o evaluaciones que se le realizan a un dato en
particular. Una vez realizada esta evaluación y dependiendo del
resultado obtenido se pasa a una u otra rama del árbol. Este tipo de
análisis se caracteriza por ser de tipo jerárquico debido a la naturaleza
jerárquica que se presenta en el árbol. La desventaja que presente este
tipo de análisis es que no debe de ser utilizado con grupos de datos muy
pequeños, adicionalmente se presenta el problema que son
extremadamente sensibles a la calidad de los datos.
• Reglas de asociación, son conocidas como reglas de decisión de
primera generación. Su funcionalidad radica en determinar correlaciones
entre los atributos de un registro de datos o bien entre los datos en un
grupo de datos. Una desventaja que presenta este tipo de algoritmos es
que asume que los datos solo contienen datos numéricos y textos
dejando a un lado las imágenes.
1
Fuente: LANGLEY, PAT; y SIMON, HERBERT A. (1995). Applications of machine learning
and rule induction. Communications of the ACM, 38(11):54-64.
3.3.2.2 Verificación de hipótesis frente a descubrimiento de

información
Tradicionalmente el objetivo de identificar y utilizar la información subyacente

en los datos ha sido satisfecho mediante la explotación de los Data Warehouse
con generadores de consultas, sistemas de interpretación de datos, paquetes
estadísticos, etc.
56
Bajo este esquema los analistas debían formular una hipótesis sobre la
existencia de una cierta información de interés, convertir la hipótesis en una
consulta, lanzarla contra el Data Warehouse e interpretar los resultados
obtenidos. Por ejemplo, el gestor bancario debería plantear la hipótesis de que
los clientes casados, con dos sueldos por familia y una renta elevada tienen
una tendencia elevada a la compra fondos de inversión. Es evidente que llegar
a esta hipótesis es un proceso en absoluto trivial; lo importante es que después
de la formulación de la hipótesis el analista plantee la consulta en términos
informáticos, lanzarla e interpretar si el grupo considerado constituye un
conjunto de clientes adecuado para sus fines.
Estos sistemas que soportan estas operaciones se los conoce como

herramientas de verificación de hipótesis, las que para lograr el objetivo de
extracción de información se enfrentan a dos problemas principales:
- Requieren la existencia previa de una hipótesis.
- La calidad de la información extraída está supeditada a la interpretación

subjetiva del usuario que lanza la consulta.
Esta complejidad hace que las herramientas de verificación de hipótesis no

sean suficientes para soportar la toma de decisiones; para esto, se hace
necesario complementarlas con otras herramientas que de forma automática
sean capaces de descubrir información importante que reside en los datos y
presentarla en el formato adecuado. Estos son los sistemas de minería de
datos, por ejemplo, un sistema de minería de datos aplicado a la base de datos
de clientes del banco podría descubrir varios grupos diferentes de clientes con
características comunes: parejas mayores dependientes de la pensión
mensual, jóvenes estudiantes con bajo pasivo en sus cuentas y dependientes
de la asignación semanal de sus padres, el grupo de los clientes con renta alta
que se ha comentado anteriormente, etc. Teniendo en cuenta el objetivo de
seleccionar clientes con alta propensión de compra de fondos, un sistema de
minería de datos no sólo identifica cuál es el segmento más idóneo, sino cuales
de los integrantes del mismo son buenos candidatos para cada tipo de
campaña promocional que puede ser ejecutada por el banco. La figura 3.9
ilustra las principales diferencias entre los sistemas de verificación de hipótesis
y los sistemas de minería de datos.
57
Figura 3.9: Verificación de hipótesis frente a descubrimiento de la información.
3.3.2.2.1 La minería de datos y los métodos estadísticos
Habiendo contextualizado la función de la minería de datos y de las

herramientas de verificación de hipótesis vemos que ambas aproximaciones
son complementarias y aportan información a distintos niveles.
Figura 3.10: Fases del soporte a la decisión sobre la explotación de un Data Warehouse.
La figura 3.10 esquemática las distintas herramientas de explotación de un

Data Warehouse con respecto a dos ejes: su implementación secuencial en
función de las necesidades de la empresa y el grado de complejidad del
análisis que se puede obtener de cada una de ellas; es importante aclarar que
la implementación de una fase no implica que las anteriores dejen de tener
validez.
58
Debido a que la minería de datos extrae información de una base datos que el
usuario ignora su existencia, éste en su área debe conocer bien lo que la
herramienta otorga como información, caso contrario su utilidad es nula. El
aprovechamiento al máximo de los modelos generados con un sistema de
minería de datos se consigue explorando sus resultados mediante
herramientas de análisis. Por ejemplo, es posible construir mediante técnicas
de minería de datos un modelo predictivo que asigne un nivel de propensión de
respuesta a una campaña promocional partiendo de una base de datos de
clientes (scoring). Además de otros resultados, uno de los resultados que se
obtendrán será un listado ordenado de los clientes, de mayor a menor índice de
propensión de respuesta. Con base en esto, y dado que el presupuesto para
acciones comerciales suele estar limitado, un analista de marketing se decidiría
por contactar con los primeros clientes de la lista. En este sentido, el modelo es
un fin en sí mismo, pues nos proporciona una información de alto valor de cara
a la selección de público objetivo para la campaña.
Sin embargo, mediante una herramienta de análisis multidimensional podemos

obtener mucha más información. Agrupando a los clientes por niveles de
propensión similares, es posible formular hipótesis sobre la distribución de
ciertos indicadores (sexo, estado civil, frecuencia de visitas, nivel de ingresos,
etc.) por grupo, lo que permite completar y enriquecer el análisis, obteniendo
información adicional sobre los perfiles de los clientes.
Volviendo a las distintas fases de implementación de sistemas de explotación

de un Data Warehouse, es importante hacer mención a la relación entre las
técnicas de minería de datos y los modelos estadísticos clásicos; este es un
asunto que en muchas a traído polémica con los analistas de formación
estadística.
Los modelos de minería de datos tienen un fundamento derivado de las

técnicas de inteligencia artificial y del aprendizaje de máquinas (Machine
Learning); esto las hace especiales con respecto a los métodos estadísticos y
de análisis multivariante convencionales. Entre las principales diferencias entre
los métodos estadísticos convencionales y la minería de datos encontramos:
• Los métodos estadísticos están basados fundamentalmente en el

contraste de hipótesis (presuponen una cierta distribución de los datos)
en cambio los modelos de minería de datos no necesitan lanzar una
hipótesis lo que los hace más robustos en este sentido.
• La minería de datos permite trabajar con una estructura de datos no
lineal, tolerando la presencia de información incompleta e incluso
errónea.
• Otra de las principales diferencias es que la técnica de minería de datos
puede trabajar al mismo tiempo con datos cualitativos y cuantitativos; en
cambio, los métodos estadísticos deben procesarlos por separado.
El muestreo en los métodos estadísticos es sobre muestras o nichos de

mercado, básicamente por dos motivos:
- La población global es inaccesible.
59
- Generalmente los sistemas informáticos no tienen la capacidad para procesar

grandes volúmenes de información.
Uno de los pilares fundamentales del método de minería de datos es la

explotación de grandes cantidades de datos; ello es posible debido a que tanto
el hardware como el software actual soportan el procesado de bases de datos
de enorme tamaño. Por otro lado el muestreo presenta de forma inherente una
serie de riesgos en cuanto a la representatividad de los datos; es por esto es
recomendable siempre construir los modelos contra el grueso de la población
que se esté considerando.
En cualquier caso, la incorporación o no de una fase inicial de muestreo no

debería venir nunca condicionada por una limitación de la herramienta de
minería de datos que se vaya a emplear, sino por otros criterios más
metodológicos.
Ahora bien los modelos estadísticos tienen un rol muy importante en Data
Mining específicamente en las tareas de desarrollo y evaluación de modelos;
tal es así, que la gran mayoría de los algoritmos de Machine Learning utilizan
técnicas de evaluación estadística para la construcción de regla de decisión.
Entre los análisis estadísticos más comunes que se utilizan tenemos:
• Técnicas de visualización y descriptivas, tales como: promedios y

evaluación de variaciones, porcentajes y correlaciones simples. Son muy
útiles para entender la estructura de un grupo de datos; a través de las
técnicas de visualización es posible evaluar rápidamente la naturaleza
de los datos en especial cuando se trata de una gran cantidad;
generalmente se utilizan histogramas.
• Análisis de clusters, consiste en organizar la información en grupos de
datos que sean heterogéneos a los que se los conoce como clusters de
datos. Estos clusters que se crean con la utilización de estos métodos se
caracterizan porque sus miembros son muy similares entre sí dentro del
mismo grupo y a su vez completamente diferentes entre los datos de
otros clusters.
• Análisis de correlaciones, se encarga de medir las relaciones entre
dos variables. Es decir, se puede establecer que sucede cuando se
cambia una variable determinada y como afecta este cambio a la otra
variable dependiente.
• Análisis de factores, es útil para entender las correlaciones entre un
grupo de variables. Es muy utilizado para reducir el número de variables
y para determinar la estructura entre de las relaciones entre las
diferentes variables, es decir poder clasificar estas variables.
• Análisis de regresión, es una herramienta estadística que determina la
relación entre dos o más variables cuantitativas, es decir, se puede
predecir el valor la variable dependiente a través de los valores que tiene
las variables independientes.
Aunque las diferencias son bastante significativas, en ningún caso se trata de

plantear una barrera ni de renunciar al empleo de técnicas estadísticas. En
60
verdad, la gran mayoría de las herramientas de minería de datos que existen

en el mercado incorporan funciones estadísticas especialmente importantes
para el estudio de la distribución de los datos, el análisis de correlaciones entre
variables o la extracción y sumarización de características. Es por esto que la
integración de las técnicas estadísticas con las de minería de datos permite
una mejor extracción y análisis de la información oculta tras los datos.
En la figura 3.11 se ilustran las principales diferencias entre las técnicas

estadísticas tradicionales y la minería de datos.
Figura 3.11: Principales diferencias entre las técnicas estadísticas y las técnicas de minería de
datos.
3.3.2.3 El proceso genérico de minería de datos
La minería de datos es un proceso iterativo que implica generalmente la

selección y transformación de datos de entrada, la ejecución de una o varias
técnicas de análisis y la interpretación y visualización de los resultados. En la
figura 3.12 se ilustra gráficamente el proceso genérico que de la minería de
datos.
61
Figura 3.12: El proceso genérico de minería de datos.
Uno de los aspectos más importantes del proceso es que es iterativo. Los
resultados de cada fase pueden hacer replantear los pasos anteriores; de esta
manera el ciclo se va depurando hasta obtener los resultados esperados. Al
momento de seleccionar una herramienta de minería de datos es importante
entre otros aspectos que se analizarán más adelante el soporte a todos los
pasos del proceso. Debe ser posible aplicar las funciones de modelización de
forma independiente, iterativamente o utilizando una combinación de ambas
modalidades.
Las funciones de minería de datos utilizan técnicas matemáticas complejas

para descubrir patrones ocultos en los datos. Una vez interpretados los
resultados del proceso, puede modificarse la selección de los datos, el proceso
de los mismos y las funciones de minería, así como los parámetros de minería
para mejorar y ampliar los resultados. A continuación se detallan cada uno de
los pasos del proceso de descubrimiento de patrones ocultos en los datos.
3.3.2.4 Selección de datos
El primer paso de la minería de datos consiste en especificar los datos de

entrada que se deseen explorar y analizar. Puede que una fuente de datos no
contenga todos los datos que se quieran utilizar para un objetivo concreto de
minería de datos, o bien puede que contenga datos irrelevantes. Esto implica
que los datos pueden estar en una o más tablas de la base de datos, vistas o
archivos.
Es importante que el sistema de minería de datos ayude a seleccionar los

datos concretos entre los diversos tipos y fuentes para crear el conjunto de
entrada al proceso. Para ello es necesario que disponga de un conjunto de
funciones de selección, incluyendo filtrado de campos y registros, uniones de
tablas, etc.
62
3.3.2.5 Transformación de datos
Cuando se han especificado los datos de entrada, deben poderse integrar y

transformar mediante técnicas de preproceso. El tipo de transformación está
dictado por el tipo de operación y técnica de minería de datos que se pretenda
emplear. Las transformaciones pueden ir desde la conversión entre distintos
tipos y formatos de datos (por ejemplo, la conversión de valores nominales a
valores numéricos), la definición de nuevos atributos o la codificación de
valores omitidos o no válidos.
3.3.2.6 Minería de datos
Los datos transformados son explotados a continuación mediante una o varias

técnicas de minería de datos con el fin de extraer la información deseada. Por
ejemplo, para desarrollar un modelo de clasificación que prediga si el lector de
una revista renovará su suscripción, primero habrá que emplear una técnica de
segmentación con el fin de generar grupos homogéneos de subscriptores, y
después aplicar un algoritmo de inducción de reglas para generar un modelo de
clasificación para cada segmento. Otro ejemplo, puede ser el desarrollo de un
modelo que otorgue la tasa de fallo de los materiales utilizados para la
fabricación de electrodomésticos con el fin de poder exigir o renegociar la
garantía de los materiales con los proveedores.
Aunque no de una forma exhaustiva, la tabla 3.1 muestra las principales

correspondencias entre técnicas, operaciones y aplicaciones en minería de
datos.
Algunos ejemplos de aplicaciones y sus operaciones
Detección de Predicción
Perfilación de Búsqueda Análisis de
actividades de la
poblaciones de patrones actividades
fraudulentas demanda
de compra bursátiles
Aplicaciones
Detección de
Clasificación Anticipación
nichos de Gestión de Comparación
según de
mercado alarmas de patrones
síntomas abandonos
Comparación
Modelos de Modelos de Clustering de Análisis de
Operaciones de secuencias
clasificación predicción datos relaciones
en el tiempo
Funciones Medición de
Inducción en Clustering
de base asociaciones
árbol relacional Análisis de
radial
Técnicas series
temporales Medición de
Redes Redes
Redes patrones
neuronales neuronales
neuronales secuenciales
Tabla 3.1. Principales técnicas, operaciones y aplicaciones en minería de datos.
Es importante resaltar que la elección de una u otra técnica vendrá

condicionada siempre a dos niveles. Por un lado, el objetivo de negocio que se
63
pretenda analizar y, por el otro, el formato y la distribución de los datos que

alimenten al modelo. A lo largo del capítulo se entrará más en detalle sobre las
distintas operaciones y técnicas de minería de datos.
3.3.2.7 Interpretación de resultados
La información extraída será siempre analizada al final por los usuarios de

negocio. Ellos son los que han de validar desde el punto de vista funcional la
calidad del modelo generado. Puede suceder que desde un punto de vista
matemático el modelo sea muy bueno pero, sin embargo, su aportación a los
objetivos de negocio no sean significativos, es por esto, que se debe realizar un
modelo adecuado a la situación que se quiere analizar de esta manera la
información resultante será útil; aunque existen casos en que esto no es
posible debido a su complejidad.
En este sentido, el propósito de la interpretación de los resultados no es sólo

visualizar (de forma gráfica o lógica) la salida de las operaciones de minería de
datos, el objetivo es filtrar la información relevante que se presentará a los
responsables de la toma de decisiones. Por ejemplo, si el objetivo es
desarrollar un modelo de clasificación, durante la fase de interpretación de los
resultados se verificará la robustez del modelo con respecto a distintos
conjuntos de validación, lo cual dará una indicación de la capacidad de
generalización del mismo.
Si el resultado no es satisfactorio, será necesario repetir la fase de minería de

datos, o bien iterar sobre pasos anteriores. Para ilustrar todo el proceso se
plantea el siguiente ejemplo. Una empresa desea utilizar técnicas de marketing
directo para ofrecer nuevos servicios a sus clientes de tal manera que pueda
enfocar todos sus esfuerzos a aquellos clientes con una alta probabilidad de
estar interesados. Un primer paso consistiría en utilizar una herramienta de
minería de datos para descubrir segmentos en la base de datos de clientes.
A continuación se pueden buscar características en cada grupo generado por

las que los clientes acepten en mayor o menor grado los nuevos servicios. El
proceso de creación de los segmentos sobre la base de datos de clientes
puede incluir los pasos siguientes:
• Selección de los datos de clientes relevantes como datos de entrada.

• Transformación de los datos reorganizándolos, eliminando los registros
duplicados o convirtiéndolos de un formato a otro.
• Especificación de la ubicación de los datos de salida resultantes. Un
modelo de segmentación, con independencia de la técnica utilizada,
producirá un indicador de segmento para cada cliente. Este indicador
debe almacenarse en la base de datos con el fin de efectuar consultas
posteriores y poder acceder a los clientes de cada segmento de forma
individual.
• Elección y parametrización de la técnica de segmentación adecuada.
• Ejecución de la técnica contra los datos de entrada.
• Visualización de los datos resultantes.
64
• Análisis de los resultados y replanteamiento de las fases anteriores en

función de este.
3.3.3 Operaciones y técnicas de minería de datos

3.3.3.1 Operaciones de minería de datos
Durante el desarrollo de un proyecto de Data Mining se presentan diferentes

tipos de problemas o tipos de análisis que se deben ejecutar. Por esta razón
para obtener el resultado esperado es necesario utilizar diferentes técnicas de
análisis de datos las que será necesario utilizarlas en repetidas ocasiones y
con metas específicas diferentes. Por ejemplo, en caso que se necesite
determinar cual grupo de clientes son más propensos a comprar un
determinado producto un analista de negocio que tuviera la facilidad de una
herramienta de minería de datos debería hacer lo siguiente con las
herramientas estadísticas tradicionales: primero, tendría que segmentar la base
de datos de clientes utilizando la técnica de análisis de cluster; segundo, para
determinar la propensión de compra deberá utilizar un análisis de regresión.
Los análisis de Data Mining permiten también realizar este tipo de análisis a
través de diferente tipo de operaciones posible; entre las que encontramos
están:
- Sumarización de datos.
- Modelos de predicción y clasificación.
- Análisis de asociaciones.
- Segmentación de base de datos.
- Detección de desviaciones.
Estas herramientas de análisis de datos que se utiliza en las tareas de Data

Mining se complementan con las herramientas de análisis estadístico
tradicional y las técnicas de Machine Learning; esto a su vez robustece el
análisis que se realiza y añade un mayor grado de confiabilidad a los
resultados que se obtienen.
A continuación se presenta en la tabla 3.2 un resumen de las diferentes

herramientas de análisis que utiliza en las tareas de Data Mining junto con las
diferentes herramientas ya sea estadísticas o de Machine Learning que puede
utilizar ésta herramienta de análisis de Data mining.
Técnica de análisis de datos Data Mining
Técnica de análisis
de datos: Sumarización
Segmentación Clasificación Predicción Dependencia
(E) Estadística de Datos
(AML) Algoritmos de
65
Machine Learning
Descriptiva y
(E) de * * *
visualización
Análisis de
(E) *
correlaciones
Análisis de
(E) clusters de *
información
Análisis
(E) *
discriminativo
Análisis de
(E) * *
regresión
Redes
(AML) * * *
Neurales
Razonamiento
(AML) *
baso en casos
Árboles de
(AML) * *
decisión
Reglas de
(AML) *
asociación
Tabla 3.2. Tareas de análisis de datos y las técnicas más usadas1.
3.3.3.1.1 Modelos de sumarización de datos
Permiten tener una visión general de la estructura de los datos. Generalmente

este es utilizado en las primeras instancias de un proyecto. Este análisis
exploratorio permite entender la naturaleza de los datos y las posibles hipótesis
que se pueden plantear sobre la información oculta en estos. 3.3.3.1.2
Modelos de predicción y clasificación
Es una de las operaciones más empleadas; básicamente por la gran

proliferación de técnicas de desarrollo automático de modelos. El objetivo de
esta operación es emplear el contenido histórico de las bases de datos para
generar de forma automática un modelo que pueda predecir el comportamiento
futuro. Evidentemente, debajo de este tipo de operación subyace la idea de que
lo que sucedió en el pasado se repetirá en el futuro. Por ejemplo, un analista de
marketing puede estar interesado en predecir si un cliente determinado
cambiará de marca de un producto de interés; para lograr una respuesta es
necesario que alimente al modelo con dos tipos de datos históricos: datos de
clientes que se han ido y datos de clientes que se han quedado.
Tradicionalmente la creación de este tipo de modelos ha sido abordada

mediante el empleo de técnicas estadísticas. Con la ayuda de los métodos de
minería de datos se presenta el valor añadido debido a la habilidad para
66
generar modelos que son comprensibles y explicables. Esta es una

característica fundamental de los métodos de inducción de reglas. Aunque no
es muy sencillo estos se pueden diferenciar en dos tipos: modelos de
clasificación y modelos predictivos. En los modelos de clasificación se busca
la estimación de un indicador categórico (abandono vs. a no abandono, riesgo
bajo, medio o alto, etc.), mientras que en los modelos predictivos se evalúan
variables cuantitativas (nivel de propensión, volumen de gasto en seis meses,
etc).
En la figura 3.13 se ilustra un ejemplo de un árbol de clasificación; en cada

nodo intermedio se evalúa una condición binaria, de forma que los clientes son
clasificados finalmente en diferentes hojas. Además del proceso de
clasificación (en nueve posibles categorías), el árbol muestra las reglas por las
cuales distribuye a los clientes en las correspondientes hojas.
Figura 3.13: Ejemplo de un árbol de clasificación.
3.3.3.1.3 Análisis de asociaciones
Mientras el objetivo de las operaciones de modelización es generar

descripciones generalizadas que caractericen el contenido de una base de
datos, el objetivo del análisis de asociaciones es establecer relaciones entre los
registros de una base de datos.
Por ejemplo, en una compañía el responsable de compras está interesado en

determinar que artículos se pueden vender de forma conjunta, por ejemplo, que
las camisetas de hombre se vendan acompañadas de corbatas y colonias o
que el cereal se venda junto a la leche, de forma que se pueda decidir que
artículos ofrecer en sus tiendas, así como ubicarlos en los distintos expositores.
67
El análisis de asociaciones es una operación relativamente reciente; una

aplicación a gran escala ha sido posible gracias al desarrollo de técnicas de
minería de datos.
En la figura 3.14 se muestra un ejemplo de análisis de asociaciones entre

productos de un supermercado; este análisis de bolsas de la compra permite
detectar de forma gráfica aquellos productos que se compran de forma
conjunta, ponderando su importancia mediante distintas métricas.
Figura 3.14: Análisis de asociaciones.
3.3.3.1.4 Segmentación de bases de datos
Las operaciones de segmentación son probablemente las más frecuentes en

los análisis de minería de datos y es básicamente por dos motivos:
- Proporcionan mucha información sobre las características de las bases de

datos que procesan.
- Son un óptimo punto de partida para la aplicación posterior de otras

operaciones.
A medida que una base de datos va creciendo y llenándose con diversos tipos
de datos es necesario particionarla en colecciones de registros relacionados.
Con esto es posible obtener un resumen de su contenido, o bien como tarea
previa a la construcción de un modelo predictivo o un análisis de asociaciones.
Por ejemplo, una aerolínea desea segmentar a sus clientes por pasajeros
frecuentes y pasajeros esporádicos; y de los frecuentes por categoría de vuelo.
68
Otro ejemplo con mayor detalle son los grandes almacenes que mantienen una
base de datos en la cual cada registro describe los artículos comprados por un
cliente durante una visita determinada.
Esta base de datos puede ser segmentada de forma que se obtengan grupos
homogéneos de transacciones, cuyo estudio particular aportará información
valiosa sobre los hábitos de compra de los clientes. La figura 3.15 muestra un
ejemplo de segmentación de clientes de un supermercado.
Figura 3.15: Ejemplo de modelo de segmentación de base de datos.
3.3.3.1.5 Detección de desviaciones
Esta operación es opuesta a la segmentación. Particularmente, su objetivo es

identificar puntos espurios2 en un conjunto de datos determinado, y explicar si
son debidos a la presencia de ruido u otras impurezas presentes en los datos,
o bien a relaciones causales.
La detección de desviaciones puede llegar a aportar mucha información, ya

que la presencia de estos puntos expresa una desviación con respecto a
alguna norma previamente conocida y esperada. Por ejemplo, un cliente que
usualmente efectuaba compras en un almacén y dejo de hacerlo por un buen
tiempo fue o porque su compañía lo transfirió temporalmente o porque se
cambiaron definitivamente del área donde vivían.
69
1
Fuente: adaptado de JACKSON, JOYCE. (2002). DATA MINING: A CONCEPTUAL
OVERVIEW. Communications of the Association for Information Systems. Volumen 8, pp. 267-
296.
2
También conocido como outliers. La traducción de este término siempre es complicada.
Básicamente se refiere a valores que se salen de la distribución ordinaria de los datos. En
ocasiones se les denomina puntos erróneos o aberrantes.
3.3.3.2 Técnicas de minería de datos
Existen numerosas técnicas que soportan las cuatro operaciones básicas de la

minería de datos; a continuación en la tabla 3.3 se detalla de la
correspondencia entre cada uno de ellos.
Para las operaciones de minería de

Se usa la Técnica de minería de datos
datos
Modelos predictivos y clasificación Técnicas de inducción supervisada
Técnicas de descubrimiento y patrones

Análisis de asociaciones
secuenciales
Segmentación de base de datos Técnicas de clustering
Detección de desviaciones Técnicas estadísticas
Tabla 3.3. Técnicas utilizadas por las diferentes operaciones de minería de datos.
Con independencia de la técnica utilizada, es importante que el sistema de

minería de datos disponga de técnicas de visualización que permitan el análisis
de la información resultante. Aunque las herramientas de visualización no
extraen la información de forma automática estas facilitan su análisis y
validación en términos de negocio. 3.3.3.2.1 Inducción supervisada
La inducción supervisada es el proceso de creación automática de un modelo

de clasificación a partir de un conjunto de registros (ejemplos) denominado
conjunto de entrenamiento. Los registros del conjunto de entrenamiento deben
pertenecer a un reducido grupo de clases que han sido predefinidas por el
analista. El modelo inducido consiste en patrones, esencialmente
generalizaciones sobre los registros, que son eficientes para distinguir las
clases. Una vez que el modelo es inducido puede ser empleado para predecir
de forma automática las clases a las que pertenecen registros cuya asignación
es desconocida.
INDUCCIÓN SUPERVISADA
Modelos de clasificación de datos-ejemplos de implementación
Clasificación basada en árboles de decisión
Modelo de clasificación en forma de árbol de decisión binario.

Emplea la tecnología SLIQ (Supervised Learning in Quest), procesando tanto variables
cuantitativas como cualitativas.
Emplea una técnica de pre-ordenación en la fase de construcción del árbol, integrada con una
estrategia de crecimiento primero en anchura.
70
Incorpora una técnica de podado basada en el principio de la mínima longitud de descripción

(MLD), que proporciona árboles de menor tamaño.
Es escalable, pudiendo procesar conjuntos con independencia del número de clases, atributos
y registros.
Clasificación neuronal
Basada en redes neuronales de propagación hacia atrás.

Detecta de forma automática la topología más adecuada para cada problema, aunque permite
especificar una concreta.
Optimiza de forma interna los parámetros de la red durante el entrenamiento.
Realiza una análisis de sensibilidad para detectar las variables más significativas para cada
topología.
Tabla Ejemplos de implementación de las técnicas de inducción supervisada para modelos

3.4. de clasificación y sus características.
Los métodos de inducción supervisada pueden ser neuronales o simbólicos.

Los métodos neuronales tienen sus fundamentos en el procesamiento
simplificado de la información por parte del cerebro; estos a través de una
arquitectura de nodos y conexiones permiten que los datos se propagan entre
una capa de nodos de entrada hacia una capa de salida.
Ahora bien entre ambas capas existen nodos intermedios que se encargan del
procesado interno de la información. Una de las principales características de
estas redes neuronales es su capacidad de modelar comportamientos de alta
complejidad en especial cuando existe un gran número de puntos espurios y
valores omitidos; adicionalmente se caracteriza por ser métodos no lineales lo
que los hace capaces de aproximar cualquier tipo de función. Su gran
inconveniente radica en la determinación óptima de su arquitectura, es decir:
número de capas intermedias, número de unidades por capa, etc. Además,
aunque pueden llegar a obtenerse modelos de gran calidad y resolución, otro
de sus inconvenientes es que funcionan como cajas negras de tal manera que
es difícil saber por que una red de este tipo efectúa un tipo u otro de
clasificación, independientemente de que ésta sea buena o mala.
Los inconvenientes presentados por los métodos neuronales hacen que los
analistas de minería de datos prefieran a los métodos simbólicos. Su
característica más importante es un naturaleza auto explicativa, es decir,
además de proporcionar una clasificación de los registros son capaces de
explicar los criterios que utilizó para dicha clasificación. Los ejemplos más
clásicos de métodos simbólicos son los árboles de decisión en donde la
población de registros es distribuida en función del cumplimiento de
determinados criterios de alta capacidad discriminante.
Un ejemplo de aplicación de los métodos de inducción supervisada es el

análisis de tarjetas de crédito. Una compañía de tarjetas de crédito posee
diferentes tipos de registros sobre sus clientes, cada uno conteniendo un
número determinado de descriptores o atributos. Para aquellos clientes de los
que se dispone de su historial de crédito, el registro del cliente puede estar
etiquetado como clase buena, media o mala, indicando el riesgo crediticio del
cliente. Una técnica de inducción supervisada basada en métodos simbólicos
71
puede generar la siguiente regla: si los ingresos del cliente son superiores a
$25,000, su margen de edad está entre 45 y 55 años y vive en el barrio XYZ,
entonces el cliente es bueno.
Una técnica de inducción de reglas es apta para aplicaciones de minería de

datos si cumple con las siguientes características:
• Puede producir modelos de alta calidad, incluso cuando los datos en el

conjunto de entrenamiento contienen ruido y son incompletos.
• Los modelos resultantes son comprensibles y explicables, de forma que
los usuarios pueden entender las decisiones efectuadas por el sistema.
• Puede ser influenciado de forma que adapte conocimiento sobre el
entorno en que se está construyendo el modelo. Esto implica, por
ejemplo, que se pueda prolongar el proceso de entrenamiento si el
sistema está efectuando ciertas clasificaciones incorrectas1.
Las técnicas de inducción supervisada ofrecen varias ventajas sobre los

modelos estadísticos convencionales, tales como:
• Los patrones inducidos por las técnicas de inducción supervisada

pueden estar basados en fenómenos locales, mientras que muchas
métricas estadísticas buscan condiciones que se puedan verificar a lo
largo de toda una población, suponiendo una cierta distribución
subyacente.
• Adicional a los modelos de clasificación neuronal los métodos de
inducción supervisada cuentan con los modelos predictivos cuyo objetivo
es estimar una variable numérica y no una etiqueta nominal.2
INDUCCIÓN SUPERVISADA
Modelos de predicción- ejemplos de implementación
Funciones de base radial
Pueden procesar variables cuantitativas y cualitativas a la vez.

Detecta el número de centroides óptimo, predefiniendo el número máximo de estos y el número
mínimo de registros asignados a cada centro.
Permite modelados no lineales en base a una aproximación gaussiana y la optimización de la
pendiente para la división de nuevos centroides.
Funciona especialmente bien cuando la estructura de los datos tiende a agruparse en
conjuntos ya que implementa cierto tipo de segmentación.
Predicción neuronal
Basada en redes neuronales de propagación hacia atrás.

Detecta de forma automática la topología más adecuada para cada problema, aunque permite
especificar una concreta.
Permite predecir datos en forma de series temporales.
Permite implementar regresión logística.
Tabla Ejemplos de implementación de las técnicas de inducción supervisada para modelos

3.5. de predicción y sus características.
3.3.3.2.2 Descubrimiento de asociaciones y patrones secuenciales
72
Dada una colección de artículos y un conjunto de registros, cada uno de los

cuales contiene un número determinado de artículos de la colección dada, una
función de descubrimiento de asociaciones es una operación ejecutada contra
el conjunto de registros que detecta afinidades existentes a lo largo de la
colección de artículos. Estas afinidades pueden ser expresadas mediante
reglas de la forma: el 72% de todos los registros que contienen los artículos A,
B y C también contienen los artículos D y E. El porcentaje específico de
ocurrencias se denomina factor de confianza de la asociación. El
descubrimiento de asociaciones puede implicar cualquier número de artículos a
ambos lados de la regla de asociación. Una aplicación típica que puede
implementarse mediante el descubrimiento de asociaciones es el análisis de
cestas de la compra de la canasta familiar. En este caso, un analista
ejecutará una función de descubrimiento de asociaciones sobre el registro de
transacciones de venta.
Entre otras informaciones el registro de transacciones contiene los

identificadores de transacciones y los identificadores de productos. La
colección de artículos mencionada anteriormente es en este caso el conjunto
de productos. Típicamente, este conjunto puede ser del orden de 100.000 o
más artículos. El conjunto de identificadores de productos listados bajo el
mismo identificador de transacción constituye un registro, tal y como se ha
definido anteriormente. La salida de la función de descubrimiento de
asociaciones es, en este caso, una lista de afinidades entre productos. Por
ejemplo, que el 20% de una marca específica de tostadora es vendida, los
clientes también compran guantes para la cocina3.
Otro ejemplo del uso del descubrimiento de asociaciones es en aplicaciones

que analizan los partes realizados por los pacientes en compañías médicas
aseguradoras. Cada parte contiene un detalle de los procedimientos médicos
que le fueron realizados al paciente durante una visita. Definiendo el conjunto
de artículos como la colección de todos los procedimientos médicos que se le
pueden realizar a un paciente y los registros como todos los formularios de
parte, la aplicación puede encontrar, empleando una función de descubrimiento
de asociaciones, relaciones entre aquellos procedimientos médicos que son
realizados conjuntamente con frecuencia.
En los registros de transacciones mencionados anteriormente, la identidad del

cliente que efectuó la compra puede conocerse o no. Si se conoce, puede
relacionarse los registros con la identidad del cliente que efectuó compras de
manera repetida. Esto introduce una componente de relación temporal en el
descubrimiento de asociaciones. Normalmente este tipo de técnicas se
denominan descubrimiento de patrones secuenciales; estos permiten, por
ejemplo, analizar secuencias de compras de clientes.
En la tabla 3.6 se ilustran las principales características del análisis de

asociaciones y de los patrones secuenciales.
DECUBRIMIENTO DE LAS ASOCIACIONES
Los análisis de asociaciones y patrones secuenciales permiten extraer información
73
desconocida de conjuntos de transacciones.
Análisis de asociaciones
Detecta elementos en una transacción que implica la presencia de otros elementos en ésta
misma.
Expresa las afinidades entre elementos en forma de asociación X FB facilitando una serie de
métricas como el soporte, cofianza, tipo de la regla, etc.
Permite especificar los niveles de soporte y confianza mínimas para las reglas que deben ser
detectadas así como los elementos que deben o no incluir.
Permite incorporar taxonomías de productos, habilitando la detección de asociaciones a
diferentes niveles.
Patrones secuenciales
Detectan patrones entre transacciones, lo que permite optimizar las ventas a lo largo tiempo.
Permiten especificar el factor de soporte mínimo para las secuencias que deben ser
detectadas.
Tabla 3.6. Principales características del análisis de asociaciones.
1
Un ejemplo típico de esto se encuentra en los modelos de estimación de enfermedades en
función de determinados síntomas. Puede ser tolerable que el modelo de clasificación se
equivoque, en un número relativamente bajo de casos, al decir que un individuo que no está
enfermo si lo está. Sin embargo, la tolerancia en el caso contrario tiene que ser
necesariamente más baja.
2
Las técnicas empleadas en los modelos predictivos son similares a las de los de clasificación.
Además de los algoritmos basados en redes neuronales, las funciones de base radial (RBF,
radial basis functions) son otra de las técnicas más empleadas.
3
Existe un ejemplo canónico para ilustrar el análisis de bolsa de la compra: pañales implica
cerveza.
3.3.4 Segmentación
Las técnicas de segmentación se emplean para dividir una base de datos en

subconjuntos, denominados segmentos (clusters), donde los miembros de cada
uno de ellos comparten características similares. Un ejemplo sencillo es el que
aplicamos al ir a una lavandería donde dividimos la ropa que vamos a lavar por
segmentos como: lavado en seco, ropa blanca, ropa de color, etc. Cada
segmento tiene similares características y reacciones, en este caso, al tipo de
lavado. En este ejemplo, a pesar de su simplicidad, también encontramos
inconvenientes como el no saber donde ubicar la camisa blanca con rayas
rojas que contiene características de dos segmentos. Data Mining ayuda en
estos casos a clarificar el segmento al que pertenece para direccionar de mejor
manera la estrategia a aplicar.
El resultado de una operación de segmentación puede emplearse en dos

sentidos. Primero, para sumarizar el contenido de una base de datos,
considerando las características de cada segmento en lugar de las de cada
registro individual. Segundo, como una entrada a otros métodos, como los de
74
inducción supervisada. Un segmento es un conjunto más pequeño y manejable

para un modelo de clasificación que el total de la población1.
Los segmentos pueden ser generados mediante técnicas estadísticas (métodos

jerárquicos, k-medias, etc.) o bien mediante métodos neuronales o algoritmos
de inducción simbólica no supervisados2.
Los distintos métodos estadísticos, simbólicos o neuronales se distinguen por:
- El tipo de los valores de atributos que pueden tomar los registros a segmentar
(numéricos, nominales, estructurados, etc).
- La forma en que construyen y representan cada segmento.
- La forma en que organizan y relacionan el conjunto de segmentos

(jerárquicamente, en listas planas, etc).
Los métodos estadísticos representan un segmento como una colección de

instancias. Es difícil decidir como asignar un nuevo ejemplo a los segmentos ya
existentes, ya que debe definirse una forma de medir la distancia entre una
nueva instancia y aquellas ya presentes en el segmento.
Por el contrario, los métodos basados en redes neuronales, distintos en este

caso a los empleados en las técnicas de inducción supervisada, representan un
segmento como un prototipo al que están asociados un subconjunto de las
diferentes instancias presentes en la base de datos. Los métodos simbólicos se
basan en comparaciones masivas entre registros, definiendo métricas de
similitud, no de distancia, entre ellos. Una de las principales diferencias entre
ellos y los métodos estadísticos es que no sólo intentan optimizar la similitud de
los registros pertenecientes a un mismo segmento, sino la separabilidad entre
los distintos segmentos generados.
Los métodos de segmentación difieren de las otras técnicas de minería de

datos en que su objetivo es generalmente menos preciso. Además, este tipo de
técnicas suelen ser sensibles a la presencia de variables redundantes e
irrelevantes. Este problema puede subsanarse permitiendo al usuario que
seleccione las variables que considere más significativas, o bien asignando
distintos pesos de ponderación a cada una de ellas (tabla 3.7).
Agrupación automática de registros que comparten características similares
Ejemplos de implementación
Segmentación basada en el análisis relacional (particionado)
- El número de segmentos se determina durante la ejecución del algoritmo.

- Procesa tanto variables cualitativas como cuantitativas.
- De forma recursiva, modifica una solución inicial maximizando la similitud entre los miembros
y las diferencias entre miembros de segmentos diferentes (Criterio de Condorcet).
- Es un algoritmo linealmente escalable respecto al número de registros, el número de
segmentos, el número de variables activas y el número de intervalos empleados internamiento
en las variables cuantitativas.
75
- Es especialmente eficiente para la detección de nichos de registro.
Segmentación neuronal
- Basado en mapas auto-organizativos de Kohonen.

- Es necesario predefinir el número de segmentos que se desean obtener, así como su
distribución bidimensional.
- Procesa tanto variables cualitativas como cuantitativas, aunque funciona mejor cuando
dominan éstas últimas.
- Es especialmente eficiente cuando se desea particionar una población imponiendo cierta
relación entre los segmentos obtenidos.
Tabla 3.7. Principales técnicas de segmentación y sus características.
1
En este caso, la idea es que, una vez particionada la base de datos, se construye un modelo
de clasificación para cada uno de los segmentos, en lugar de desarrollar un único modelo para
el total de la población. 2 No supervisados en el sentido en que, al contrario que en los modelos
de clasificación o predicción, aquí no existe una variable objetivo que permita mediar la calidad
del proceso de entrenamiento.
3.3.5 Proyecto de Data Mininng: consideraciones generales

3.3.5.1 Actores que intervienen en un proyecto Data Mining
Al igual que cualquier tipo de proyecto los proyectos de Data Mining tienen
diferentes actores que realizan tareas específicas para la consecución exitosa
del proyecto. Entre los que se puede destacar están:
• Líder del proyecto, tiene la responsabilidad completa del proyecta. Es

el encargado de planear, coordinar, ejecutar y difundir el proyecto de
Data Mining.
• Cliente, se refiere al experto del lado del negocio, el es el encargado de
consultar y utilizar los resultados provistos como resultado del proyecto.
Generalmente, no poseen conocimiento técnico y debido a esto no
pueden participar en todas las fases del proyecto de Data Mining tales
como la preparación y modelamiento de los datos.
• Analista de Data Mining, es el que tiene un conocimiento profundo del
negocio. Su papel es muy importante ya que es el que se encarga de
traducir los requerimientos de los clientes en un lenguaje técnico que
ayude al desarrollo de los modelos futuros.
• Ingeniero de Data Mining, es el encargado de desarrollar, interpretar y
evaluar el modelo de Data Mining desde diferentes perspectivas y
objetivos del negocio. La ingeniería de un modelo de Data Mining se la
realiza con la participación también del analista y el cliente garantizando
así que el modelo propuesto cumpla con las expectativas del negocio.
• Analista de IT, es el encargado de la parte tecnológica. Entre sus
actividades están la de garantizar el acceso al hardware, software y los
datos necesarios para completar exitosamente el proyecto de Data
76
Mining. Todo proyecto de Data Mining por su naturaleza tecnológica

necesita de coexistir armoniosamente con todas las tecnologías de la
organización; tal es así que los datos con los que trabajará pueden
provenir de cualquier fuente ya sea una base de datos, un sistema o un
Data Warehouse de la organización.
Los integrantes de un proyecto de Data Mining puede asumir diferentes roles

dentro del proyecto, esto depende mucho de la magnitud del proyecto tal es así
que para un proyecto grande se necesitarán algunos ingenieros y analistas de
Data Mining.
3.3.5.2 Metodologías de desarrollo para los proyectos de Data

Mining
Existen una gran variedad de metodologías que proponen un proceso estándar

para el desarrollo de proyectos de Data Mining. Entre los más conocidos
tenemos: SEMMA, las cinco "A" de SPSS y el CRISP-DM. Este último es
considerado el modelo estándar de la industria; fue desarrollado utilizando
información de 200 usuarios de Data Mining junto con los proveedores de los
servicios y herramientas para la minería de datos. Su objetivo fue el de
establecer un modelo genérico el mismo que se pueda ajustar a las
necesidades específicas cada negocio en particular.
3.3.5.2.1 Modelo SEMMA
El nombre SEMMA es un acrónimo en inglés que identifica los cinco pasos que
son parte de un proyecto de Data Mining, estos son:
1. Sample
2. Explore
3. Modify
4. Model
5. Assess
La traducción en español es muestra, exploración, modificación, modelamiento

y evaluación. Este modelo propone al los analistas un proceso cíclico en donde
se parte de una muestra de los datos la misma que se la explora con la ayuda
de las técnicas de visualización y estadísticas, luego, estos datos son
transformados con la finalidad de descubrir patrones de variable más
significativos, al final, se procede a modelar los resultados que se esperan del
modelo para que luego estos puedan ser evaluados y retroalimentados al
sistema. En la figura 3.16 se ilustra detalladamente el modelo SEMMA con los
elementos que lo constituyen.
77
Figura 3.16: Modelo de análisis SEMMA1.
SAMPLE (muestra), consiste en crear una o tablas de datos tomando muestras

de datos de una Data Warehouse. Hacer esto reduce notablemente el tiempo
de procesamiento y obtención de información ya que se procede a "minar" una
muestra representativa de datos en lugar de hacerlo al todo de los datos.
EXPLORE (explorar), luego de haber tomado una muestra significativa de los

datos se proceda a explorar estas muestras ya sea visualmente o
numéricamente con el objeto de encontrar tendencias o grupos significativos
dentro de estos datos. Este proceso de exploración permite refinar un poco
más el proceso de descubrimiento de información; entre las técnicas
estadísticas más usadas están las de análisis de factores, análisis de
correlaciones y de cluster.
MODIFY (modificar), se refiere a la creación, transformación y selección de una

o más variables con el objetivo de enfocar el modelo en una meta específica o
simplemente para modificar los datos de tal manera que se le da claridad y
consistencia.
MODEL (modelar), consiste en crear un modelo de datos a través de la

utilización de software de minería de datos con la finalidad de encontrar la
combinación de datos que permitan obtener los resultados que se esperan.
ASSESS (evaluar), como su nombre lo indica evalúa el modelo para determinar

que tan bien funcionó. Generalmente lo que se hace es que en la fase de
muestra se separa un grupo de datos luego una vez terminado el modelo este
es probado con los datos que fueron separados al inicio así como con aquellos
que sirvieron para la construcción del modelo.
3.3.5.2.2 Modelo de las 5 "a" de SPSS
Fue desarrollado por SPSS y es muy similar a la propuesta SEMMA. Este

modelo fue patrocinado hasta finales del primer semestre del 2001 hasta que
78
SPSS decidió patrocinar la metodología CRISP-DM. A continuación en la

figura 3.17 se ilustra el modelo de las 5 "A" de SPPSS.
Figura 3.17: Modelo de análisis de las 5 "A" de SPSS2.
3.3.5.2.3 Modelo CRISP-DM
Es conocido como el modelo estándar de la industria. El modelo inició como un

proyecto a mediados de 1997 con el auspicio de la Comisión Europea. Entre
los patrocinadores más importante encontramos:
NCR, Daimler Chrysler, Integral Solutions Limited (ISL) (ahora parte de SPSS)
y OHRA una compañía independiente de seguros noruega.
El objetivo del proyecto fue el de diseñar una metodología estándar para el

modelamiento de proyectos de minería de datos o Data Mining; la misma que
debía ser completamente flexible e independiente del tipo de industria al que la
utilizaría haciendo el proceso de desarrollo más rápido, más barato,
administrable y confiable y sin importar el tamaño del proyecto.
A continuación en la figura 3.18 se ilustra el modelo CRISP-DM con todos sus

elementos y relaciones.
79
Figura 3.18: Modelo de análisis CRISP-DM3.
Business Understanding (conocer el negocio), la primera fase se concentra

en entender los objetivos del proyecto y los requerimientos desde el punto de
vista del negocio para luego convertir este conocimiento en una definición de
un problema de Data Mining junto con un plan inicial de implementación para
poder cumplir este objetivo planteado.
Data Understanding (conocer los datos), inicia con la recolección inicial de los
datos para luego proceder con actividades para que permitan familiarizarse con
los datos de tal manera que se puedan detectar problemas con la calidad de
los datos, descubrir primeros patrones en los datos que permitan formular
hipótesis para información que se encuentre oculta en los datos.
Data Preparation (preparación de los datos), esta fase consiste en todas las
actividades previas a la preparación de los datos iniciales que se alimentarán a
la herramienta de modelamiento. Esta fase de preparación de los datos
contiene pasos que deben ser realizados en múltiples ocasiones y sin un orden
en particular. Estas tareas incluyen: preparación de las tablas de datos,
almacenamiento, selección de atributos y la transformación y limpieza de los
datos que serán alimentados a las herramientas de modelamiento.
Modelling (modelamiento), en esta fase se utilizan y aplican diferentes

herramientas de modelamiento cuyos parámetros son ajustados para obtener
valores óptimos. Generalmente existen diferentes técnicas para el mismo tipo
de problema de Data Mining las mismas que exigen ciertos requerimientos por
parte de los datos de tal manera que se hace necesario regresar a la fase de
preparación de datos en repetidas ocasiones.
Evaluation (evaluación), en esta fase el modelo se presenta bastante

depurado y con una buena calidad desde la perspectiva del análisis de datos.
Ahora bien antes de seguir con el paso de divulgación del modelo es necesario
evaluarlo nuevamente tomando en consideración los diferente pasos que se
80
ejecutaron para la consecución del mismo. Con esto se asegura que el modelo
realmente satisface las necesidades y objetivos planteados por el negocio. Una
forma de determinar esto es verificando si existe algún requerimiento
importante del negocio que no ha sido cubierto completamente por el modelo.
Luego de que se haya validado el modelo se procede a la toma de la decisión
del uso de los resultados obtenido por el mismo.
Deployment (uso), la terminación de la creación de un modelo de minería de

datos no constituye el último esfuerzo y peor aun la culminación del proyecto
en si. Para cualquier caso el conocimiento adquirido con el modelo es
necesario presentarlo a la organización de alguna forma que sea entendible.
Esto puede estar dado por la implementación de un reporte sencillo o algo más
complejo sería la implementación de un proceso repetitivo de minería de datos
con los resultados obtenidos. Esta fase de uso del modelo está a cargo del
cliente y no del analista de los datos; es por esta razón, que es completamente
necesario que el cliente conozca a profundidad la forma en que se deben
utilizar los modelos creados.
1
Fuente: JACKSON, JOYCE. (2002). DATA MINING: A CONCEPTUAL OVERVIEW.
Communications of the Association for Information Systems. Volume 8, pp. 279.
2
3
3.4 Aplicaciones de minería de datos

De un tiempo a esta parte, la minería de datos está siendo aplicada a una gran
variedad de dominios, desde gestión de inversiones hasta astronomía. Su
importancia y potencial de aplicación ha sido particularmente reconocido en
sectores como por ejemplo:
• Telecomunicaciones y compañías de tarjetas de crédito, las que

más utilizan Data Mining para poder detectar el uso fraudulento de los
servicios que ofrece.
• Medicina, para determinar la efectividad de un procedimiento quirúrgico,
evaluaciones médicas o medicaciones.
• Instituciones Financieras, para evaluar las características del mercado
y de la industria como también para evaluar el rendimiento de una
compañía en especial o de las acciones en la bolsa.
• Vendedores, para determinar los productos que deben almacenar en
determinados almacenes, como debe ser ubicado dentro del almacén, o
también para evaluar la efectividad de una promoción.
• Firmas farmacéuticas, para evaluar grandes bases de datos con
elementos químicos y materiales genéticos con el fin de descubrir
81
substancias que puedan ser de utilidad para el desarrollo de nuevas

medicinas para el tratamiento de enfermedades.
Con esto vemos que la minería de datos ofrece una amplia gama de
aplicaciones en diferentes industrias y puede ser usada como un medio para
aumentar las ganancias a través de la reducción de costos o ya sea por medio
del aumento de los ingresos.
En cada una de estas aplicaciones, es normalmente necesario realizar e

implementar varias operaciones de minería de datos, en adición a las
operaciones relativas al Data Warehouse y los sistemas genéricos de soporte a
la decisión.
Otro ejemplo de minería de datos es el relacionada con el análisis de la

vulnerabilidad de clientes. Esta se refiere al proceso de analizar diferentes tipos
de datos sobre los clientes para extraer modelos, denominados modelos de
vulnerabilidad, que predicen niveles de fidelización del cliente a marcas
particulares de productos (por ejemplo, zumos de naranja), o clases de
productos (por ejemplo, zumos de frutas congelados). En función de las
predicciones de los modelos, las empresas determinan como presentar los
productos a los consumidores en las tiendas, así como identificar al público
objetivo al que dirigir los distintos tipos de campañas y estrategias de marketing
disponibles.
Los modelos de predicción de vulnerabilidad se desarrollan empleando un

proceso de cinco etapas:
• Identificar los tipos de datos que se emplearan en el análisis, así como

los registros de la base de datos de interés. Por ejemplo, es posible
considerar por separado las características demográficas y el historial de
compra, o bien integrarlas conjuntamente para el mismo análisis.
• Definir el concepto de cliente leal, o de forma contraria, el de cliente
vulnerable, que será el objetivo a predecir en base a otros indicadores
del cliente. Por ejemplo, volviendo al ejemplo del zumo de naranja, un
cliente leal a la marca es aquel que compra el mismo tipo de zumo más
del 80% de las veces.
• Emplear métodos de segmentación con el fin de identificar subconjuntos
relevantes dentro de los datos. Estos subconjuntos pueden contener
tanto clientes leales como vulnerables.
• Crear un modelo predictivo tanto para el conjunto de la población como
para cada uno de los segmentos identificados en el paso anterior. De
esta forma, es posible detectar diferencias significativas respecto a los
perfiles detectados en el esquema de segmentación.
• Aplicar los modelos generados a la población que se quiera calificar
(puesta en producción de los modelos), clasificando a cada uno de los
clientes. El beneficio final radica en la posibilidad de dirigir diferentes
estrategias y campañas de marketing a las diferentes tipologías de
clientes detectadas.
82
Los modelos de vulnerabilidad constituyen sólo un ejemplo más de las muchas

aplicaciones de las técnicas de minería de datos. Las figuras 3.19 a 3.24 dan
una idea de otro tipo de aplicaciones que pueden ser abordadas con estas
técnicas.
Figura 3.19: Ejemplo de escenario de aplicación de distintas técnicas de minería de datos.
83
84
85
Capítulo 4.- Acceso y recuperación

de la información textual y gestión
de documentos
OBJETIVOS
- Reconocer los problemas que plantea Internet de cara al acceso a los datos.
- Conocer los motores de búsqueda y aplicaciones de acceso a la información.
- Aplicar la minería de datos a la explotación de datos no estructurados: minería de textos.
- Conocer y comprender el sentido de la gestión documental.
4.1 Problema del acceso de la

información
4.1.1 La problemática del acceso a la información en internet
Muchas veces se ha hablado de Internet como la biblioteca mundial de la era

digital. Sin embargo, bajo ningún concepto se puede mantener esta afirmación,
Internet, y particularmente la World Wide Web, no fue diseñada para soportar
una publicación ordenada ni los mecanismos de recuperación de la
información. Por el contrario, ha evolucionado en algo así como un repositorio
86
caótico que aglutina la producción de la comunidad digital. Este almacén de

información no sólo contiene libros y artículos digitales, sino datos científicos,
publicidad, grabaciones de audio y vídeo, así como transcripciones de
conversaciones iterativas.
En resumen, en Internet encontramos una gran cantidad diversa de contenidos

los cuales se encuentran dispersos en toda la red. Para poder acceder a los
mismos sería necesario un sistema muy similar a los sistemas de archivo
tradicionales los mismos que estarían en la capacidad de organizar, acceder y
preservar la información en la red. Incluso así, la Red no se parecerá a una
biblioteca tradicional, ya que sus contenidos son mucho más dispersos que los
de una colección estándar. En consecuencia, las habilidades de clasificación y
selección deben ser complementadas con las capacidades de indexación y
almacenamiento de los ordenadores.
Por el momento la tecnología informática sustenta la responsabilidad de

organizar la información en Internet. En teoría, el software que de forma
automática clasifica e indexa las colecciones documentales digitales puede
abordar el enorme volumen de información con la misma de los indexadores y
bibliógrafos humanos para realizar esto. El acceso automático a la información
tiene la ventaja de poder explotar directamente la rápida disminución del precio
de los ordenadores, evitando el alto coste y los retrasos de la indexación
humana.
Sin embargo, cualquiera que haya buscado información en la web sabe que
estas herramientas automáticas categorizan la información de forma diferente
que las personas. En cierto sentido, el trabajo realizado por las diferentes
herramientas de indexación y catalogación, conocidas como motores de
búsqueda, es altamente democrático al no ejercer prioridades por calidad de
contenido. Esto es así por que su aproximación está basada en un acceso
uniforme e igualitario a toda la información de la Red. En la práctica, este
igualitarismo electrónico perjudica enormemente la búsqueda de información
relevante. Un usuario de un sistema de este tipo, que introduce una petición de
búsqueda en el sistema, se ve normalmente bombardeado por miles de
posibles respuestas donde en muchos documentos sólo nombran esa petición
y no la profundizan. El resultado de la búsqueda contiene, con frecuencia,
referencias a sitios web irrelevantes, dejando fuera otros que contienen
importante material.
4.1.2 Mecanismos de busqueda en internet
La naturaleza de la indexación electrónica puede entenderse analizando la

forma en que los motores de búsqueda, como Lycos o Altavista, construyen los
índices y buscan la información solicitada por un usuario. Periódicamente,
lanzan programas, denominados web crawlers o robots de indexación, a cada
sitio que pueden identificar en la web. En este contexto, un sitio web debe ser
considerado como un conjunto de documentos (páginas) que son accesibles
por toda la Red. Los robots descargan estas páginas, las examinan, y extraen
información que puede ser usada para describirlas. Este proceso, cuyos
detalles varían de unos proveedores a otros, puede incluir, simplemente, la
87
localización de la mayoría de las palabras que aparecen en las páginas, o bien

un análisis sofisticado para identificar términos clave y frases. Estos datos son
almacenados en la base de datos del motor de búsqueda, conjuntamente con
la dirección URL que representa la ubicación en la que reside la página.
Cuando un usuario realiza una consulta contra la base de datos del motor de
búsqueda, este genera una lista de recursos web, las direcciones URL, a las
que el usuario puede acceder mediante su navegador.
Los servicios de búsqueda sirven en millones de consultas diarias, las

características que hacen que este sistema de recuperación no sea ideal están
bastante claras. En contraste con la indexación humana, los programas
automáticos tienen dificultad para identificar las características de un
documento, como su contenido global o el género al que pertenecen. Es decir,
son las personas quienes tienen que clasificar si se trata de una canción, un
poema, o incluso un anuncio.
Además, la web todavía no dispone de estándares que podrían facilitar la

indexación automática. Como resultado de esto, los documentos de la web no
están estructurados, de forma que los programas de acceso no pueden extraer
la información rutinaria que un indexador humano encontraría en una simple
inspección: autor, fecha de publicación, extensión, contenido principal, etc1. Un
robot de búsqueda podría recuperar el artículo solicitado escrito por Francisco
Alejandro, pero probablemente devolverá también miles de otros artículos en
los que este nombre es mencionado, tanto en el texto como en el apartado de
bibliografía.
En este sentido, los publicadores abusan en ocasiones del carácter

indiscriminado de la indexación automática. Un sitio web puede sesgar el
proceso de selección con el fin de atraer la atención de estos robots hacia él,
repitiendo dentro de sus páginas una palabra, como por ejemplo "sexo", que se
sabe que se consulta con frecuencia. El motivo: un motor de búsqueda
mostrará en primer lugar las direcciones URL de aquellos sitios que mencionan
con mayor frecuencia un término de búsqueda. De forma contraría, una
persona puede fácilmente darse cuenta de estos trucos.
Otro inconveniente de la indexación automática es que la mayoría de los

motores de búsqueda reconocen sólo texto. Sin embargo, uno de los grandes
atrayentes de Internet es la capacidad para contener y mostrar imágenes, ya
sean gráficos o videos, y sonidos. El acceso a este tipo de formato no está
resuelto todavía.
Al mismo tiempo, la forma en que la información es estructurada en Internet

cambia constantemente. Esto hace que no pueda ser examinada por los robots
de búsqueda. Muchas páginas web ya no son ficheros estáticos que pueden
ser analizados e indexados por estos programas. En muchos casos, la
información mostrada en una página se organiza como respuesta a la acción
del usuario. Por ejemplo, un periódico electrónico puede permitir al lector que
especifique que noticias quiere ver en su versión personalizada de la edición.
La base de datos de noticias a partir de la cual esta se construye no puede ser
88
accedida por el robot que visita el sitio web (la figura 4.1, resume los
principales problemas planteados hasta ahora).
Figura 4.1: Problemas que plantea el acceso a la información en Internet.
1
Es decir, los metadatos.
4.1.3 Posibles soluciones
Pese a esta situación, un número creciente de investigaciones han intentado

dar respuesta a algunos de los problemas relacionados con los métodos de
clasificación automática. Una aproximación consiste en añadir metadatos a los
ficheros, de forma que los sistemas de indexación pueden acceder a esta
información. En este sentido, se han realizado varias propuestas para definir un
conjunto de metadatos estándar.
Sin embargo, esta iniciativa requiere un grado de consenso que, hoy por hoy,
no parece factible a corto plazo. Por ello, y en un intento de aprovechar al
máximo las capacidades de los sistemas de información, una alternativa más
factible consiste en intentar aplicar las técnicas de Business Intelligence a la
extracción de la información a partir de datos.
La figura 4.2, plantea los distintos grados de complejidad asociados con el

proceso de extraer conocimiento a partir de datos. Si bien este proceso es
común al planteamiento global de Business Intelligence, en el caso de la
recuperación de información textual cobra mayor relevancia. Cuando se
plantearon los objetivos y características de la minería de datos, en todo
momento se está hablando de explotar datos estructurados. Es decir, datos
89
que, aun estando en una tabla de una base de datos o en un fichero,

responden a un formato relacional: registros ordenados con una serie de
atributos que los definen. Sin embargo, en el caso de la recuperación de
información en Internet, lo que se plantea es la extracción de información a
partir de textos, es decir, datos no estructurados, con un formato imposible de
estandarizar. Si además se añaden los componentes lingüísticos y semánticos,
es fácil darse cuenta del problema que se intenta abordar. La tabla 4.1 resume
los principales problemas de acceso a los datos textuales.
Figura 4.2: Problemática de extracción de conocimiento a partir de los datos.

LA PROBLEMÁTICA DE LA INFORMACIÓN TEXTUAL
Riqueza semántica
Los datos textuales tiene un significado semántico. Los numéricos no.
No es posible hablar de "acceso a los datos", sino de "recuperación de la información"
La falta de un formato tabular dificulta el procesado de los datos mediante técnicas de
computación.
L la existencia de diferentes idiomas dificulta aún más todo el proceso.
Medida de la similitud
La comparación de los dos textos debe hacerse en base a sus características lingüísticas y
semánticas.
La apreciación éstas características está influenciada por el contexto y por el analista que
aborda el problema.
Sumarización automática
Con datos se pueden hacer descriptivas que los resuman, con textos es mucho más
complicado.
Tabla Características de los datos textuales y los principales problemas de acceso a los
4.1. datos textuales.
Con el fin de dar respuesta al descubrimiento de información en datos no

estructurados, surge la minería de textos (text mining) que es el proceso de
analizar texto para extraer información de utilidad. Con respecto a la minería de
datos, los objetivos son prácticamente los mismos1, pero el punto de partida es
bien distinto. Sin embargo, tal y como veremos, las operaciones y las técnicas
que soportan las aplicaciones son fundamentalmente distintas.
90
Hay que matizar que la minería de textos no es algo ligado a Internet. En

efecto, se pueden plantear muchas situaciones en las que sea necesario
disponer de herramientas de extracción de información a partir de textos no
ligadas a Internet (las figuras 4.3, 4.4, y 4.5 plantean algunas de ellas). Sin
embargo, ha sido Internet el gran detonante de la necesidad de aplicaciones de
este tipo. La necesidad de dotar a los motores de búsqueda de cierta
inteligencia a la hora de almacenar, indexar y recuperar la información ha sido
el principal impulsor en este campo.
Muchas de las tecnologías y herramientas desarrolladas en minería de textos

están dedicadas a la tarea de descubrir y extraer información. Las piezas
básicas de la información en los textos, como el idioma en que está escrito o
los nombres de personas y las fechas, se denominan características. Estas
características se usan para asignar documentos a categorías dentro de un
esquema predefinido, agrupar documentos por temas, afinar búsquedas en
partes específicas de los documentos, o mejorar la calidad de los sistemas de
recuperación de la información.
Figura 4.3: Aplicación de las técnicas de minería de textos en los sistemas de atención a los
clientes.
91
Figura 4.4: La minería de textos como preproceso anterior a la minería de datos.
Figura 4.5: La minería de textos dentro de la gestión del conocimiento.
1
Quizá pierde algo de sentido el decir aquí que la información extraída se emplee para la toma
de decisiones de negocio.
4.2 Minería de textos y las

organizaciones
4.2.1 ¿Qué atrae a las empresas hacia la minería de textos?
La minería de textos es la extrapolación de las ideas de minería de datos a

archivos de textos poco o nada estructurados. La minería de datos permite
extraer de los datos características desconocidas mediante el empleo de
métodos avanzados, las cuales se escapan del alcance de las técnicas de
consulta tradicionales. Las técnicas de minería de textos permiten procesar y
comparar datos provenientes de múltiples y diversas fuentes, extrayendo
información no visible en muchos casos para el usuario, y que puede soportar
la toma de decisiones.
Las técnicas de minería de textos son, en sí mismas, potentes, permitiendo a

los usuarios convertir grandes volúmenes de documentos electrónicos en
almacenes de información y significado acerca de su negocio. Cuando se usan
como herramientas de soporte en proyectos de gestión del conocimiento, estas
técnicas pueden ayudar en multitud de aplicaciones.
Por ejemplo:
92
• Descubrir contenidos implícitos en colecciones de documentos,

incluyendo relaciones y vínculos de interés.
• Descubrir relaciones entre documentos pertenecientes a divisiones
distintas. Por ejemplo, pueden encontrar que los clientes asociados a la
cartera de un producto tienen justo las características que se están
buscando.
• Agrupar documentos por temas comunes. Por ejemplo, todos los
clientes que han formulado quejas y han cancelado sus pólizas. Esto
puede permitir:
- Identificar y solucionar problemas.
- Eliminar cuellos de botella mediante la identificación de patrones

repetitivos.
- Encontrar nuevas oportunidades de negocio, muchas de ellas con

clientes de alta rentabilidad.
APLICACIONES
Análisis de opiniones de clientes.

Estudios sobre la competencia.
Análisis de encuestas.
Estudios de relaciones documentales.
Análisis de servicios de noticias.
Servicios de búsqueda automatizados.
Análisis de patentes.
Descubrimiento de nuevos competidores
Clasificación documental.
Diseño de mapas de conocimiento sobre
Construcción de motores de búsquedas
problemas específicos.
inteligentes.
Sondeos sobre nuevos productos.
Construcción de servicios de atención a
Pre-proceso para alimentación de sistemas
usuarios inteligentes.
informacionales.
Exploración de nuevos mercados.
Tabla 4.2. Principales aplicaciones de minería de textos.
4.2.2 Escenarios de trabajo y principales operaciones de

minería de textos
Las herramientas de minería de textos proporcionan a los integradores de

sistemas, proveedores de soluciones y desarrolladores de aplicaciones, un
amplio abanico de herramientas de análisis, componentes de búsqueda de
datos textuales y herramientas de acceso a la web. De esta forma, y
dependiendo de las características de cada herramienta, se convierten en una
poderosa ayuda para el desarrollo de soluciones de gestión del conocimiento.
Con la minería de textos se puede acceder a la información de negocio que

está implícita y encerrada en el correo electrónico, reclamaciones de seguros,
canales de noticias, permitiendo el análisis de carteras de patentes, cartas de
quejas de clientes, e incluso las páginas web de la competencia.
Los componentes típicos de una solución de minería de textos son:
93
• Módulos de análisis de textos, incluyen herramientas de identificación

del idioma en textos, segmentación y categorización de documentos,
extracción de características y elaboración automática de resúmenes.
• Motores de búsqueda avanzados; permiten buscar información textual,
descubrir conceptos relacionados y soportan diferentes tipos de
indexación, cada uno de los cuales está pensado para el tipo de uso que
se quiera efectuar.
• Robots de búsqueda, un conjunto de herramientas para diseñar y
ejecutar y programar robots de búsqueda, acostumbran a incluir
funcionalidades para el almacenamiento de metadatos e integración con
motores de búsqueda.
Las distintas herramientas que componen los paquetes de minería de textos se

pueden utilizar individualmente o bien combinándolas de distintos modos para
crear soluciones de minería de textos a medida. Por ejemplo, se pueden
combinar los módulos de análisis de textos con los motores de búsqueda.
TÉCNICAS Y OPERACIONES
Herramientas de análisis de textos

Extracción de características (nombres, relaciones, fechas, cantidades, eventos...)
Elaboración automática y configurable de sumarios.
Segmentación automática de documentos en base a sus características lingüísticas.
Categorización de documentos en clases predefinidas. Detección automática del idioma.
Motores de búsqueda inteligentes

Capacidades de indexación avanzadas.
Soporte de consultas complejas.
Robots de búsqueda automática por internet.
Soluciones de búsqueda a medida para intranets

Interfaces de usuario configurables, con limitación de acceso a las colecciones de información
según perfiles.
Tabla 4.3. Principales técnicas y operaciones de minería de textos.
En esta situación, es posible utilizar la capacidad de extracción de

características para crear índices inteligentes, que permiten efectuar consultas
refinadas en base al contenido específico de los documentos.
4.3 Herramientas de análisis de

textos
Las herramientas de análisis de textos cubren una serie de funcionalidades
encaminadas a extraer información relevante de grandes colecciones textuales.
En la figura 4.6 se puede observar las distintas características principales de
estas herramientas.
94
Figura 4.6: Integración de las herramientas de análisis de textos.
4.3.1 Herramientas de extracción de características
Cada día se recibe una gran cantidad de documentos electrónicos. Se abre

cada uno de los documentos ellos, se lee, se imprime y, a continuación, se
utiliza un rotulador fluorescente resaltador para marcar los puntos o
características más significativas del texto. Con una herramienta de extracción
de características, este proceso puede ganar velocidad de manera
espectacular, puesto que las características principales del texto se reconocen
automáticamente.
Los módulos de análisis de texto incluyen un componente de este tipo. Se trata

de una herramienta que puede reconocer términos significativos del texto. El
proceso es totalmente automático y el vocabulario no está predefinido.
Las funciones de extracción de nombres pueden proporcionar pistas útiles

sobre el tema de un texto. Puede localizar nombres en un texto y determinar si
se trata de nombres de personas, lugares o empresas, e incluso distingue, por
ejemplo, en qué casos "África" es un nombre propio o el nombre del continente.
Puede reconocer nombres incluso si aparecen con formas distintas, tales como
"Ricardo Arando" o "Sr. Arando", o bien "Asociación de Consumidores de
Pontevedra" o "ACP". Un recuento de las frecuencias de aparición de todas
estas variantes permite detectar los términos más significativos de un
documento, es decir, los que lo caracterizan. Esto puede constituir un método
rápido par conocer el contenido de un documento sin tener que leerlo. Estas
estadísticas de frecuencias de aparición también se pueden utilizar para
encontrar términos que se puedan emplear para buscar en documentos
similares.
Las funciones de extracción de terminología encuentran automáticamente

términos compuestos con un significado propio, como "impresora láser".
También puede reconocer distintas formas del mismo término, como "cuenta de
gastos" y "cuentas de gastos".
95
Las funciones de análisis de abreviaturas detectan coronamos y siglas, y las

relaciona con sus formas completas, creando una estructura de relaciones. La
funciones de extracción de relaciones buscan información del tipo "Empresa_X
fabrica muebles", "J. Sanz consejero_delegado Empresa_X", "Jaén ubicación
Empresa_X". Existen otro tipo de funciones que detectan otros elementos
significativos, tales como fechas, números y cantidades de dinero.
La figura 4.7 muestra un ejemplo de extracción de características de un

documento. Por un lado figuran las palabras clave, y por otro los términos
extraídos en distintos colores. A continuación, se analizarán con mayor detalle
los procesos de extracción de información.
Figura 4.7: Ejemplo de extracción de características sobre un documento web.
4.3.1.1 Rasgos significativos de un texto
La extracción de conceptos lingüísticos que proporcionen información

representativa del contenido de un documento es una de las tareas más
habituales en el análisis textual. Una base de datos convencional consiste en
colecciones homogéneas (listas y tablas) de datos atomizados (números y
cadenas de caracteres) que representan de forma explícita la estructura
informacional que contienen. La información es extraída mediante consultas a
la base de datos empleando un lenguaje formal. Esta información parcial es
recogida en los tipos de datos y combinada a través de los enlaces que
proporciona la estructura explícita de la base de datos.
En principio, esta situación es la misma si el contenido de la base de datos es

más complejo (por ejemplo, gráficos y textos). Sin embargo, el proceso de
96
extracción es mucho más complicado, ya que la información implícita

disponible en el contenido de los datos complejos tiene que ser integrada en la
estructura explícita de toda la base de datos y, así, hacerla accesible de cara a
su aprovechamiento.
La extracción de datos implícitos de textos puede ser interesante por varios

motivos. Los siguientes son sólo algunos ejemplos:
• Para resaltar información importante. Por ejemplo, para hacer más

visibles términos importantes en documentos que han sido devueltos por
una consulta en una Intranet o que han sido recibidos por correo
electrónico. Esto puede dar una impresión rápida sobre el interés del
documento y la urgencia de su procesado.
• Para encontrar nombres de la competencia. Cuando se efectúan
estudios de mercado resulta útil realizar una extracción de nombres de
los documentos que han sido recibidos por diferentes fuentes, con el fin
de ubicar a los posibles competidores.
• Para encontrar y almacenar conceptos clave. Esto podría reemplazar a
un sistema de recuperación de textos donde se emplean enormes
índices no siempre apropiados.
• Para usar tópicos relacionados con el fin de refinar consultas. Si se
almacenan los conceptos clave encontrados en los documentos de una
Intranet en una base de datos, es posible construir una aplicación para
refinar consultas contra ella. De esta manera, los tópicos relacionados
con las consultas iniciales pueden ser empleados para refinar
búsquedas posteriores.
4.3.1.2 Extracción de características
De cara al empleo de las técnicas de extracción de características en minería

de datos, se puede asumir el siguiente escenario de trabajo: la base de datos
es una colección de documentos dentro de la cual la única estructura explícita
es un conjunto desordenado de datos textuales complejos y arbitrarios. Un
aspecto importante de este escenario es llegar a saber con que criterio están
relacionados los documentos de dicha colección.
En general, la información sobre las propiedades comunes de los documentos

puede ser obtenida a través de las características de su vocabulario. De hecho,
este consiste en una relación de expresiones que tienen que ver con los
conceptos expresados en los documentos. Frecuentemente, los nombres o los
conceptos relativos a un determinado dominio son característicos del contenido
de un texto. Las herramientas de extracción de características pueden generar
este vocabulario de forma automática. No es necesario un vocabulario
predefinido. En este sentido, estas herramientas asignan diferentes categorías
al vocabulario encontrado, así como una medida de su importancia dentro del
contenido del texto. Esto último se mide a través de un cociente de información
(IQ, Information Quotient).
Es posible extraer los siguientes tipos de información:
97
• Nombres de personas, organizaciones y lugares, como Doña Isabel

Fernández, Instituto Nacional de Estadística o Avilés, Asturias.
• Términos compuestos, como unidad central de proceso.
• Acrónimos, como IVA, para el impuesto sobre el valor añadido /
agregado.
• Relaciones, como Juan Sánchez preside Congelados Cántabros, SA.
Las herramientas de extracción de características pueden funcionar en dos

modalidades. En la primera analizan un único documento. En la segunda,
siendo el modo más empleado, localizan en un documento el vocabulario que
se encuentra en un diccionario que ha sido previamente construido, de forma
automática, a partir de una colección de documentos similares. La ventaja de
esta segunda modalidad radica en que, cuando se emplea una colección de
documentos, estas herramientas son capaces de agregar las instancias
presentes en ellos con el fin de definir un vocabulario óptimo. Por ejemplo,
pueden detectar que varias instancias diferentes son en realidad variaciones de
un mismo término, definiendo este último como la forma canónica. Además,
pueden asignar una medida de significación estadística, el IQ, a cada elemento
del vocabulario.
4.3.1.3 Cociente de información
Esta medida de significación, el IQ, es un número que es asignado a cada

elemento del vocabulario encontrado en una colección de documentos. Para
calcular el IQ se emplea una combinación de métricas estadísticas que,
combinadamente, miden el nivel de significado de la palabra, frase o nombre
dentro de los documentos de la colección. Por ejemplo, a los elementos que
aparecen con más frecuencia dentro de un documento que en toda la colección
se les asigna una medida más alta. Aquellos con un IQ más alto son casi
siempre nombres o términos compuestos, ya que tienden a expresar un
significado más focalizado que los términos sencillos por sí solos.
4.3.1.4 Extracción de nombres
La tecnología de extracción de nombres emplea técnicas heurísticas robustas

para localizar nombres en el texto. Además, determinan a que tipo de entidad
se refiere cada nombre: persona, lugar, organización u otros, como
publicaciones, premios, eventos históricos, etc.
Todos los nombres que se refieren a la misma entidad, como por ejemplo el
expresidente de los Estados Unidos Clinton, Mr. Clinton y Bill Clinton, son
reconocidos de la misma forma, en el sentido que se refieren a la misma
persona. A cada grupo de variantes se les asigna una forma canónica, por
ejemplo Bill Clinton, para diferenciarlos de otros grupos que se refieren a otras
entidades, como Clinton, Nueva Jersey. La forma canónica es la más explícita
y menos ambigua de todas las variantes encontradas. Esta tecnología permite
reconocer en torno al 95% de los nombres existentes en un texto, sin
necesidad de una base de datos de estos preexistente. Tiene que quedar claro
que este porcentaje se aplica en ausencia de errores tipográficos y de
escritura. Además, puede manejar las ambigüedades estructurales inherentes
98
al lenguaje. Un ejemplo es Francia y España frente a la Fundación para la Ley

y el Orden. En el primer caso une dos nombres separados, mientras que en el
segundo es parte del propio nombre.
4.3.1.5 Extracción de términos
La tecnología de extracción de términos descubre términos en textos de forma

automática. Emplea un conjunto de heurísticos para identificar términos
técnicos compuestos. Estos heurísticos trabajan realizando emparejamiento de
patrones simples, con el fin de encontrar expresiones que tienen las
características de las estructuras de los términos técnicos.
La repetición de términos en un único documento es una señal de que estos

están relacionados con el contenido del mismo. Su medida permite asegurar la
calidad del proceso de extracción. También son reconocidas las variantes
relacionadas con un mismo concepto, asignándoles una misma forma
canónica.
4.3.1.6 Acrónimos
Es posible encontrar también variantes de términos y nombres en forma de

abreviaturas y relacionarlas con las correspondientes formas desarrolladas.
4.3.1.7 Extracción de relaciones
La extracción de relaciones identifica posibles relaciones mediante el empleo

de heurísticos de tipo lingüístico para analizar la ocurrencia de patrones de
cierto tipo. Debido a esta naturaleza, no hay una lista cerrada de relaciones que
pueden ser descubiertas. Algunos ejemplos son Joaquín Fernández -
Responsable General - Gestión de datos o IBM Corp. - fabrica - ordenadores.
Además de relaciones tipo edad, profesión, "produce" pueden ser extraídas

otras como, por ejemplo, dependencia (tiene, posee,...), origen (creado,
construido), relaciones familiares (esposa, pariente), etc. El abanico de
relaciones potenciales está limitado sólo por la información contenida en los
documentos que están siendo analizados.
Las herramientas de extracción de características se usan en conjunción con

las de categorización, pero también pueden hacerlo con otras. Por ejemplo,
pueden emplearse en un paso de preproceso para las técnicas de
segmentación. Aquí, es posible orientar la segmentación con respecto a
diferentes aspectos de los documentos, como personas, organizaciones, etc.
4.3.2 Asignación de documentos a categorías predefinidas
Cada día se reciben muchos mensajes de correo electrónico de clientes que

hacen referencia a distintos productos. Estos mensajes se pueden clasificar
según el tipo de producto para enviarlos al representante indicado. Puesto que
los mensajes no tienen una estructura fija, la única forma de determinar el
producto relevante consistía en abrir el mensaje y leerlo.
99
Las herramientas de categorización pueden ayudar a enviar de forma

automática cada mensaje de correo electrónico al representante apropiado del
producto. Estas herramientas analizan documentos, en este caso mensajes de
correo electrónico, y determinan de forma automática la categoría o categorías
a las que pertenece un documento en función de un sistema de clases
predefinido. El resultado de una categorización es una lista de nombres de
clases y niveles de fiabilidad para cada documento. Esta herramienta consta de
un módulo de aprendizaje en el que se definen las categorías mediante
ejemplos conocidos.
Otro ejemplo viene de la organización de la documentación. Los documentos

en una Intranet pueden estar divididos en categorías, tales como Política de
personal, Información de Lotus Notes o Información sobre sistemas. Puede
resultar muy poco práctico catalogar manualmente millones de documentos en
una Intranet grande. Mediante la categorización automática, los documentos se
pueden asignar a un esquema predefinido. De este modo es más simple
encontrar los documentos examinando o limitando el ámbito de búsqueda del
texto.
En general, categorizar objetos significa asignarlos a categorías predefinidas o

clases derivadas de una taxonomía. Las categorías pueden sobreponerse o
estar incluidas unas dentro de otras.
En el contexto de la minería de textos, la categorización se aplica a la

asignación de documentos a categorías ya existentes, muchas veces llamadas
tópicos o temas. Las categorías se eligen para satisfacer un uso determinado
de la colección de textos, y tienen que ser entrenadas antes de su uso.
Asignando documentos a categorías, la minería de textos puede ser de gran
ayuda para organizarlos. Si bien la categorización no puede reemplazar el tipo
de catalogación que hacen los bibliotecarios, puede suponer una alternativa
mucho menos costosa. Además, puede ser muy útil en otras aplicaciones tales
como:
- Organización de documentos en una Intranet. Por ejemplo, los documentos

en una Intranet pueden estar divididos en categorías, como Política de
Personal, Informaciones sobre Lotus Notes o Información sobre ordenadores
personales. Se ha estimado que el coste de catalogar un documento de forma
manual ronda los 25 dólares. Claramente, ésta es una solución impracticable
para los millones de documentos que puede haber en una Intranet. La
automatización de este proceso es algo totalmente necesario.
- Asignación de documentos a carpetas. La categorización puede ayudar a

archivar documentos de una forma eficiente. Por ejemplo, puede ayudar a una
persona a asignar el correo electrónico a un conjunto de buzones, sugiriendo
aquellos más probables.
- Distribuir documentos. En direcciones comunes de correo electrónico o en

centros de atención telefónica, la categorización puede ser de gran ayuda.
Mediante ésta, los informes sobre problemas pueden ser directamente
direccionados a la persona más adecuada.
100
- Dirigir noticias a subscriptores. Un servicio de noticias puede usar la

categorización automática para asignar tópicos a cada noticia entrante. De esta
forma, es posible enviar a cada subscriptor las noticias que más le interesen.
4.3.2.1 Fase de entrenamiento
La herramienta de categorización asigna documentos a categorías

predefinidas. Para este fin, la herramienta debe ser entrenada primero con un
conjunto de aprendizaje, consistente en un conjunto de muestras de
documentos para cada categoría. Esta colección se usa para crear un
esquema de categorías.
El entrenamiento emplea las herramientas de extracción de características para

almacenar sólo la información relevante en el diccionario. El esquema de
categorías es un diccionario que codifica de forma condensada las estadísticas
del vocabulario significativo de cada categoría. Estas estadísticas son usadas
para determinar la categoría o categorías cuyos documentos de muestra están
más cercanos a un documento que se desea clasificar.
4.3.2.2 Algoritmo de categorización
La función del algoritmo de categorización es construir una lista ordenada de

categorías para un trozo de texto determinado, denominado documento de
consulta.
El valor de rango es una suma sobre el número de ocurrencias de todos los

diferentes elementos de vocabulario (por ejemplo, las formas canónicas o sus
variantes) en el documento de consulta. Cada número de ocurrencias es
ponderado por un término que tiene en cuenta la frecuencia relativa del
elemento de vocabulario en la categoría con respecto a la frecuencia relativa
en todo el conjunto de entrenamiento. De esta forma, una palabra con una alta
frecuencia en una única categoría y, comparativamente, poca frecuencia en
todo el conjunto de entrenamiento, tendrá un valor de ponderación más alto
que otra que aparece mucho en el conjunto de entrenamiento o que es poco
frecuente en la categoría.
Para cada categoría se calcula un valor de rango con respecto al vocabulario

del documento de consulta. La salida de la herramienta de categorización es un
texto que lista cada documento de consulta conjuntamente con su valor de
rango para cada categoría, ordenados de mayor a menor. El número de
categorías contabilizadas puede ser especificado por el usuario.
4.3.3 Detección del idioma
Los documentos que se reciben pueden estar en distintos idiomas, que luego
se deben traducir. El documento se abre manualmente mediante un sistema de
correo electrónico, se explora el texto para determinar en qué idioma se ha
escrito el documento y, a continuación, se envía a un traductor. Hasta ahora,
éste ha sido un procedimiento demasiado lento y costoso.
101
Las herramientas de identificación del idioma pueden detectar

automáticamente el idioma en que está escrito un documento. Su precisión
suele aproximarse al 100%, incluso en el caso de textos breves. Actualmente
soportan múltiples idiomas, incluidos el castellano y el catalán, aunque es
posible entrenar al sistema para que reconozca más. Este proceso de
entrenamiento también puede emplearse para mejorar la calidad de detección
en idiomas ya soportados. Estas herramientas utilizan pistas tales como
palabras con una frecuencia de aparición elevada o estadísticas sobre las
distribuciones de secuencias de caracteres determinados.
Otras aplicaciones de estas herramientas son la organización automática de

conjuntos de datos indexables según el idioma, o la restricción de las
búsquedas a los documentos en un determinado idioma.
La funcionalidad de las técnicas de categorización y detección del idioma es

casi la misma. Ambas están dotadas de módulos de entrenamiento para
aprender las categorías a partir de ejemplos. Sin embargo, la función de
similitud empleada es diferente. En la herramienta de identificación del idioma
se comparan pequeñas agrupaciones de caracteres, mientras que la de
categorización está basada en el análisis del léxico, donde se intenta identificar
y comparar ocurrencias en elementos de vocabulario.
4.3.4 Segmentación de documentos en grupos
Cuando se obtiene un gran número de documentos a partir de una consulta de

búsqueda, es fundamental que se pueda tener una visión general del resultado.
Normalmente estos documentos aparecen en una lista clasificada, es decir, se
ordenan según su importancia en la consulta. No obstante, si la consulta en sí
ya no es muy precisa, esto no sirve de ayuda.
Los resultados se pueden presentar mejor si se agrupan en conjuntos de

documentos relacionados. De este modo, son mucho más fáciles de entender,
puesto que el análisis de un solo documento de un grupo puede mostrar si
merece la pena seguir analizando dicho grupo. Las técnicas de segmentación
de documentos, cuyo objetivo es similar al que se persigue en minería de
datos, se pueden utilizar para alcanzar este objetivo.
Las herramientas de segmentación facilitan el proceso de examen para buscar

informaciones parecidas o relacionadas entre sí. Estas herramientas
encuentran los conceptos fundamentales de un conjunto de documentos y los
agrupan automáticamente en conjuntos que contienen conceptos similares
(clusters). Estos conjuntos se crean dinámicamente sin que se necesiten clases
predefinidas. Esta es la diferencia fundamental con respecto a las técnicas de
categorización (ver figura 4.8).
102
Figura 4.8: Diferencias entre los procesos de segmentación y clasificación.
Dentro de una colección de objetos, un cluster puede definirse como una

agrupación de estos cuyos miembros son más similares entre sí que con
respecto a otros miembros en cualquier otro grupo.
En minería de textos, la segmentación se emplea para dividir una colección de

documentos en subconjuntos, los clusters, siendo los miembros de cada
subconjunto similares con respecto a ciertas características de interés. Para un
proceso de segmentación no se requieren taxonomías o esquemas de
clasificación previos.
Típicamente, el objetivo de la segmentación es determinar un conjunto de

clusters donde la similitud inter-cluster sea mínima y la similitud intra-cluster
sea máxima. En general no hay una solución única a este problema. Se han
propuesto un variado número de algoritmos que son más o menos adecuados
para distintas colecciones de datos e intereses.
En este sentido, muchas herramientas de minería de textos incluyen dos

técnicas de segmentación: jerárquica y binaria. En la segmentación jerárquica,
los segmentos son dispuestos en forma de árbol, donde aquellos relacionados
están dispuestos en la misma rama, mientras que en la binaria se genera una
relación plana de los segmentos.
En cualquier caso, los procesos de segmentación pueden emplearse para

diferentes fines:
• Proporcionar una idea del contenido de una colección de documentos

extensa. Por ejemplo, segmentos grandes en una colección de
sugerencias de los clientes podría indicar la necesidad de mejorar
ciertos productos o servicios.
• Identificar estructuras ocultas dentro de grupos de objetos. Cuando una
Intranet crece de forma rápida, la segmentación permite asegurar que
los documentos relacionados están correctamente enlazados.
103
• Facilitar el proceso de búsqueda de información similar o relacionada.

Por ejemplo, para obtener una visión general de documentos
provenientes de una encuesta de opinión.
• Encontrar los documentos más representativos dentro de un conjunto.
En documentos obtenidos de un servicio de noticias es interesante
detectar aquellos cuyo contenido es acerca de nuevas tendencias o
tecnologías que no han sido mencionadas previamente.
• Detectar documentos duplicados en un archivo.
4.3.4.1 Segmentación jerárquica
El algoritmo empleado en la segmentación jerárquica empieza con un conjunto

de segmentos simple, cada uno conteniendo un único documento. Estos
segmentos constituyen las ramas finales del árbol de segmentación. Partiendo
de ellos, el algoritmo identifica pares de segmentos que son muy similares y los
agrupa en un segmento superior. Este proceso iterativo continúa hasta llegar a
un único segmento, que constituye la raíz del árbol.
Al combinar dos segmentos, la similitud intra-cluster es calculada. En este

sentido, los segmentos simples de las ramas tienen una similitud del 100%, ya
que están formados por un único documento. El árbol binario construido
durante este proceso contiene toda la información de la segmentación,
incluyendo todas las similitudes inter e intra-cluster. La similitud inter-cluster
entre dos segmentos arbitrarios es similitud intra-cluster del primer segmento
en común.
El árbol binario resultante podría ser excesivamente frondoso, conteniendo

muchos segmentos para unos pocos documentos. Debido a que, por lo
general, son difíciles de visualizar, es posible aplicar técnicas de podado de
cara a procesados posteriores. Los segmentos dentro de una misma rama que
tienen una similitud intra-cluster comparable pueden ser fusionados en un
único segmento. Esto reduce la profundidad del árbol y facilita su análisis. La
técnica de podado puede parametrizarse con el fin de tratar colecciones de
documentos homogéneas o heterogéneas. Para colecciones homogéneas la
distribución de las similitudes intra-cluster tiende a estar por encima del 50%,
mientras que para conjuntos heterogéneos el valor está por debajo. En este
sentido, es posible especificar un valor umbral mínimo que permita fusionar
dentro de la raíz del árbol aquellos segmentos cuya similitud intra-cluster esté
por debajo de este umbral. Seleccionando un valor umbral máximo puede
especificarse que un segmento cuya similitud intra-cluster sea superior a este
no necesita una mayor descomposición. Ajustando el número de ramas, el
usuario puede fijar la profundidad máxima del árbol.
Para medir la similitud de los documentos es necesario efectuar un paso previo

de análisis lingüístico del vocabulario de los documentos. Los términos
identificados se almacenan en forma de vector de términos, los cuales se
comparan entre sí. El vector de términos de un segmento es una fusión de los
vectores de sus subsegmentos.
104
Para la etapa de análisis lingüístico pueden emplearse las Herramientas de

extracción de características u otro medio que permita obtener afinidades
léxicas.
Una afinidad léxica es la correlación existente en un grupo de palabras que

aparecen frecuentemente en una distancia corta a lo largo de los documentos
seleccionados. Ejemplos de afinidades léxicas son expresiones como biblioteca
electrónica o hardware informático. Estas afinidades se generan
dinámicamente y son específicas de cada colección de documentos.
La noción de similitud entre documentos y segmentos es clave para obtener

subconjuntos de información de gran calidad. El empleo del grado de
solapamiento entre palabras sencillas como medida de similitud es bastante
impreciso y susceptible de distorsión, debido sobre todo al alto grado de
ambigüedad léxica que aparece entre términos aislados.
Idealmente, un análisis semántico de los documentos es la mejor manera de

identificar los conceptos que aparecen en un texto de cara a un proceso de
segmentación. Sin embargo, este tipo de análisis es muy costoso y depende
excesivamente del dominio específico del texto. La extracción de afinidades
léxicas es más conveniente que un análisis semántico, ya que es una solución
que no depende del dominio en cuestión. De esta manera, es posible derivar
un conjunto valioso de términos semánticos sin ayuda de léxicos
especializados o diccionarios de sinónimos específicos.
Normalmente, las herramientas de segmentación jerárquica generan los títulos

de cada conjunto, así como listas breves de frases relevantes que sean
características de los documentos que contienen. El resultado acostumbra a
mostrarse en forma jerárquica o dendograma (figura 4.9).
Figura 4.9: Segmentación jerárquica de documentos.
105
4.3.4.2 Segmentación binaria
La segmentación binaria puede encontrar tópicos ocultos en una colección de

documentos y establecer relaciones entre ellos. El procesamiento y el resultado
obtenido difieren del de la segmentación jerárquica en lo siguiente:
• La estructura de segmentos es plana.

• Cada documento es ubicado en un solo segmento, aquel más
representativo.
• Cada segmento se corresponde con un tópico.
• Los tópicos se relacionan entre sí a través de sus características
comunes.
La segmentación binaria es un proceso iterativo a través del cual los

documentos se organizan en segmentos. Los documentos en un segmento son
lo más similar posible entre sí, mientras que los segmentos son lo más
diferente posible uno entre otros. Normalmente, es posible obtener buenos
resultados con unas cuantas iteraciones.
Para medir el grado de similitud es necesario extraer las características

representativas de los documentos. Las herramientas de extracción de
características se emplean para obtener estos descriptores. El grado de
similitud está basado en la comparación de los descriptores de cada
documento con las características representativas extraídas de toda la
colección. La similitud entre pares de documentos se puede calcular de tres
maneras:
• A los descriptores que aparecen con más frecuencia a lo largo de los

documentos de la colección se les asigna más peso que aquellos que
ocurren en solo un pequeño número de documentos; esto da prioridad a
los tópicos más extendidos.
• A los descriptores que son compartidos por sólo un pequeño número de
documentos se les asigna más peso que aquellos que ocurren con más
frecuencia en la colección. Esto da como resultado un mayor número de
segmentos representativos de tópicos específicos.
• A los descriptores que ocurren con más frecuencia a lo largo de la
colección se les asigna un peso ligeramente inferior al de aquellos más
específicos. Esto reduce el efecto de dar prioridad a los tópicos más
extendidos y normalmente conduce a resultados mejores cuando se
desea que el resultado de la segmentación sea independiente de la
frecuencia de los descriptores.
Las herramientas de segmentación pueden usarse como paso previo a un

proceso de categorización, sobre todo de cara a preparar los conjuntos de
aprendizaje.
En la figura 4.9 se muestra la segmentación de una colección de opiniones

derivadas de una encuesta. Consiste en un conjunto de cartas de alumnos que
describen los proyectos de investigación que les gustaría mostrar en una
página web. La colección es muy heterogénea en cuanto a su contenido. Los
106
resultados se muestran de forma jerárquica. A la izquierda se puede observar

el árbol de segmentos y subsegmentos. A la derecha, los documentos para
cada categoría.
4.3.5 Elaboración automática de sumarios
La sumarización es el proceso de condensación de un texto, denominado

fuente, en una versión más reducida, conservando la información de su
contenido. Las herramientas de sumarización extraen de forma automática
aquellas frases de un documento que son más relevantes de cara a la
definición de su contenido. A partir de estas frases se crea un sumario del
documento. Estas herramientas emplean un conjunto de estrategias de
ordenación a nivel de palabra y frase con el fin de evaluar la relevancia de
estas en el conjunto del contenido. La longitud del sumario producido puede ser
establecida por el usuario.
La generación automática de sumarios puede ser de gran utilidad para:
• Juzgar la relevancia de un texto. Leyendo un sumario generado de

forma automática, un usuario puede darse una idea de su contenido
global y decidir si merece la pena leerlo entero.
• Enriquecer los resultados de una búsqueda. Los resultados de una
consulta efectuada a un motor de búsqueda pueden ser enriquecidos
añadiendo una breve descripción de cada documento. Esto permite a la
persona decidir si merece la pena indagar más en el documento a través
del enlace correspondiente.
• Tener una visión general de una colección de documentos. De esta
forma es posible decidir que documentos son más importantes, dándoles
una mayor prioridad.
4.3.5.1 Algoritmo de sumarización
Los algoritmos de sumarización consisten en un paso de preprocesado y dos

de ordenación: uno de palabras y otro de frases. En la parte de preprocesado,
se identifican los límites y alcance de las palabras, frases y párrafos. Para ello
se emplean las herramientas de extracción de características. Este análisis se
realiza con respecto a un vocabulario de referencia extraído de unas
colecciones de ejemplo.
El resultado de esta fase de preprocesado es empleado durante la ordenación

de palabras con el fin de asignar una puntuación (scoring) a los términos
identificados. No todas las palabras son susceptibles de recibir esta
puntuación. Deben, al menos, cumplir los siguientes criterios:
• La palabra debe aparecer al menos dos veces en el documento.

• La palabra debe aparecer en ciertas partes del documento, como títulos
o encabezados.
• La palabra debe aparecer con más frecuencia en el documento en
cuestión que en la colección de documentos del vocabulario de
referencia.
107
Dependiendo de su ubicación en el documento, a la palabra se le asigna un

factor de ponderación.
Su frecuencia dentro del vocabulario de referencia y el documento en sí mismo

son también empleados para calcular la puntuación.
El paso final de ordenación de frases asigna puntos a éstas. La puntuación

para las frases se calcula a partir de:
• La puntuación de las palabras individuales en la frase.

• La proximidad de la frase al inicio del párrafo.
• La proximidad de la frase al inicio del documento.
• Las frases finales de párrafos extensos o los párrafos finales en grandes
documentos reciben una puntuación extra.
Algunos de estos valores pueden ser además multiplicados con coeficientes

específicos determinados por el usuario.
Las frases con puntuación más alta son extraídas para crear el sumario del
documento. La longitud de este puede establecerse a través de un número
máximo de frases o como un porcentaje de la extensión del documento.
4.3.5.2 Calidad de los sumarios
La calidad de los sumarios puede mejorarse cuando se emplea un vocabulario

de referencia específico del dominio en cuestión, habiendo sido generado a
partir de una colección genérica de documentos.
Si se está interesado en un dominio en particular, como investigación médica,

por ejemplo, pueden emplearse las herramientas de extracción de
características sobre una colección de muestra con el fin de generar un fichero
de referencia particular. En este sentido, un vocabulario de referencia
específico ofrece mejores resultados.
4.4 Búsqueda de información

4.4.1 Motores de busqueda avanzados
La función de un motor de búsqueda textual es doble. Por un lado indexa

documentos en base a una serie de parámetros definidos por el administrador
del sistema y, por el otro, canaliza las solicitudes de los usuarios cuando
quieren recuperar información.
He aquí un ejemplo. En el departamento jurídico de una multinacional se está

creando una biblioteca digital de todos los casos en los que la empresa haya
intervenido. Esta biblioteca está almacenada en un servidor muy potente. La
mayoría de los documentos (por ejemplo, aquellos relacionados con la
legislación medio ambiental) están escritos en idiomas distintos. Los
documentos contienen terminología especializada del campo jurídico. Los
108
empleados deben poder realizar búsquedas en la biblioteca mediante consultas

complejas y específicas en distintos idiomas. También se les puede ofrecer la
posibilidad de realizar búsquedas imprecisas para que puedan localizar
términos abreviados. En este caso, un motor de búsqueda proporcionará
distintos recursos de consulta, la posibilidad de indexar y buscar en varios
idiomas, utilizar diccionarios de sinónimos de soporte y procesar consultas en
lenguaje natural y de carácter booleano. Mediante el soporte de secciones, es
posible definir partes en los documentos que se pueden indexar y buscar. Por
ejemplo, para los historiales de casos puede existir una sección denominada
"Casos de referencia" en la que se pueden realizar búsquedas de forma
explícita.
El potencial de los motores de búsqueda radica en el análisis lingüístico en

profundidad del texto de un documento antes de indexarlo, y en el análisis de
los términos de una consulta antes de realizar la búsqueda. Como
consecuencia de ello, se obtiene un resultado de gran precisión, lo que ayudará
en el objetivo de obtener la cantidad exacta de información: ni más, ni menos.
El número de aplicaciones de los motores de búsqueda es enorme:
• Generalmente se usa como recurso de búsqueda integrado en sistemas

de grandes repositorios. Una aplicación frecuente es integrar su
funcionalidad dentro de los gestores de bases de datos relacionales. De
esta forma, es posible combinar funciones de recuperación textual con
sentencias SQL.
• Un área típica en la que se pueden poner en práctica las posibilidades
de estas herramientas es como motor de búsqueda para aplicaciones de
gestión del conocimiento. Por ejemplo, sobre conjuntos infinitos de
documentos que tengan un índice fijo como, por ejemplo, un archivo de
aplicaciones de patentes o una recopilación de informes técnicos
internos.
• También pueden utilizarse como parte de una solución de búsqueda en
una Intranet o Internet.
Normalmente, los motores de búsqueda avanzados permiten combinar varios

índices, de forma que en función del tipo de consulta que realiza el usuario,
puede emplearse uno u otro. Esto es especialmente útil para búsquedas
complejas que deban ser refinadas.
TIPOS DE INDEXACIONES
Indexación lingüística
Durante la indexación se aplica un procesado lingüístico mientras se analiza el texto de los

documentos.
- Separación de palabras y frases.
- Conversión de términos a formas estándar.
- Lematización a formas canónicas.
Para una consulta, el mismo procesado se aplica a los términos de búsqueda.

El resultado contiene los documentos en que cualquier forma de los términos de búsqueda se
relaciona con otras formas presentes en los índices.
Esta indexación amplía el número de documentos susceptibles de ser encontrados.
109
Los índices requieren de menos espacio en disco, pero la indexación y la búsqueda puede ser
más larga.
Indexación por características
Soporta las mismas características que la indexación lingüística.
Descubre y extrae características del texto durante la indexación.

- Nombres de personas, lugares, organizaciones.
- Términos compuestos específicos.
- Abreviaturas.
La información extraída puede ser empleada para expandir los términos de consulta,
permitiendo un refinado en base a variantes reconocidas.
Esta indexación amplía el número de documentos susceptibles de ser encontrados.
Los índices requieren de menos espacio en disco, pero la indexación y la búsqueda puede ser
más larga.
Indexación precisa
El procesado lingüístico sólo se emplea para determinar los límites de las palabras y frases.
Los términos de los documentos son indexados exactamente en la misma forma en que
aparece en el texto.
Esta indexación permite búsquedas más precisas, siendo la indexación y las consultas más
rápidas.
Los índices requieren más espacio en disco.
Indexación precisa normalizada
Permite indexación precisa no sensible al uso de mayúsculas o minúsculas.

Amplía los términos de búsqueda incluyendo formas.
Los índices requieren de menos espacio en disco que la indexación precisa, pero es menos
correcta con idiomas diferentes del inglés.
Indexación n-gram
La indexación y la búsqueda está basada en n-grams.

Un n-gram es una secuencia de caracteres de longitud limitada (n)
No implica ningún tipo de procesado lingüístico.
El rendimiento de la indexación es muy alto, aunque puede ser muy lento.
Permite búsquedas empleando tanto correspondencias exactas como difusas.
Búsquedas en varios sistemas.

¿Cuándo emplear varios Búsquedas en áreas temáticas particulares.]
índices? Aceleración de la indexación mediante colecciones (poca
variación en contenido).
Tabla 4.4. Características de la indexación lingüística, por características, precisa y en n-gram.
4.4.2 Recopilación de la información en internet
Si se desea realizar una búsqueda rápida en una ubicación determinada de la

web y en cualquiera de las páginas con las que enlaza, la única forma de
hacerlo es creando un índice de los enlaces que se encuentren en cada una de
ellas.
110
Como se ha comentado anteriormente, los robots de búsqueda son

herramientas que examinan páginas web buscando enlaces con otras páginas,
luego examina estas páginas en busca de más enlaces y así sucesivamente.
Se desplaza "sigilosamente" por la web de página en página, siguiendo los
enlaces HTML seleccionados.
Estos robots se puede ejecutar en una sola máquina y diversas instancias

pueden ejecutarse en paralelo. También se puede ejecutar en varias máquinas,
configuradas para acceder independientemente a subconjuntos inconexos de
sitios web de gran tamaño. Los resultados individuales del acceso, compuestos
por objetos de datos y sus metadatos, se pueden compartir e integrar para el
procesado posterior.
Los robots de búsqueda son herramientas clave para construir sitios web
inteligentes, ya sea en Internet o en una Intranet. Estas herramientas permiten
a las empresas potenciar el uso de Internet y de las Intranet de cara al acceso
a la información.
Mediante robots de búsqueda es posible desarrollar los siguientes escenarios:
• Los proveedores de soluciones de Internet e Intranet pueden

implementar servicios de búsqueda escalables y de gran potencia.
• Los analistas de la información pueden recopilar información disponible
en Internet o en una Intranet. Así mismo, pueden examinar y analizar la
información recogida de cara a la toma de decisiones empresariales.
La figura 4.10 muestra una posible integración de todos los componentes para
la construcción de servicios de búsqueda en Internet.
Figura 4.10: Integración de componentes para servicios de búsqueda en Internet.
Es importante recordar una cosa respecto al empleo de motores de búsqueda.

Existe un protocolo de buenos modales con respecto a la recogida de
información de los sitios web. La mayoría de estos tienen en su dirección URL
raíz un fichero que regula las normas de acceso al contenido del sitio.
111
La mayoría de robots del mercado acceden al contenido de este fichero antes

de comenzar la recopilación de información. Si las normas del sitio impiden la
entrada a robots (así está explicitado en el fichero mediante unas claves), estos
no podrán recopilar información de este fichero.
4.5 Gestión documental

La gestión de documentos es un tema ligado a la Inteligencia de Negocios
mediante sus conceptos como DW y las herramientas de acceso y recupeación
de información textual, a lo cual se suman conceptos y herramientas de gestión
de bases de datos.
El impacto de la gestión de documentos, también llamada gestión documental,

ha llevado a crear o definir nuevos cargos, como el de Responsable de Gestión
Documental: Es aquel agente que tiene la responsabilidad en cada área del
ingreso, recepción, derivación y salida de toda la documentación que tramite en
el ámbito del área Responsable de Gestión Documental.
El responsable de la gestión documental, no solo debe estar identificado como

el Responsable Primario de un área funcional, sino que debe tener un alcance
a nivel de toda una organización.
Además tiene como función el controlar los plazos durante los cuales la
documentación permanece en un área, evitando demoras injustificadas y
verificar que no se produzca el vencimiento del plazo por causa imputable a la
gestión documental. También como función manejar el catálogo de
documentos, así cómo seleccionar los algoritmos de búsqueda, acceso,
recuperación y análisis de información.
112

Business Intelligence y Gestión Documental - V2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Business Intelligence y Gestión Documental - V2

Cargado por

Copyright:

Formatos disponibles

COSIM TI – CAPACITACION PROFESIONAL – BIBLIOTECA VIRTUAL

Business Intelligence y Gestión

Capítulo 1.- De los datos a la

- Conocer las fuentes de datos en la empresa y el problema de acceso a la información.

- Contextualizar las soluciones de Business Intelligence y su aplicación al soporte de la toma de

- Situar los sistemas Business Intelligence en el contexto de la información y las

1.1 Fundamentos de Business

Cuando se habla de Business Intelligence (BI), una de las definiciones globales

También se puede definir al Bussines Intelligence como:

"La combinación entre la recolección de información, su almacenamiento y el

de la toma de decisiones puedan utilizarlo. La meta principal del Bussiness

Muchos de los conceptos de Business Intelligence no son nuevos, pero han

Dada la creciente competencia presente en todos los entornos de negocio es

1.1.2 ¿Pero qué hace el Business Intelligence?

Siendo el Business Intelligence parte fundamental en la toma de decisiones

• Aquellas que están directamente involucradas en la administración del

El haber dado un ranking a las aplicaciones de Business Intelligence nos lleva

Business Intelligence es el resultado de un crecimiento continúo; éste se

• Data Warehouses como repositorios de datos hace de esta una fuente

En la figura 1.1 se puede ver claramente la diversidad de fuentes que tiene un

Figura 1.1: Business Intelligence y su relación con otros sistemas de información1.

1.2 Información, sistemas de

Vemos que los modelos empresariales están sufriendo una profunda

Casi literalmente, la empresa actual se hunde bajo el aluvión de datos. Esta

Figura 1.2: El problema del acceso a la información.

Figura 1.3: Visión general de un Datawarehouse.

Debido a la diversidad de fuentes que alimentan a una solución de Business

Blumberg y Atre (2003)1 indican que el 60 % de los CIO´s de las compañías

Adicionalmente Blumberg y Atre (2003) indican que no es fácil indagar

La figura 1.4 muestra la variedad de informaciones de entrada disponibles para

Figura 1.4: Entradas a los sistemas de Business Intelligence2.

1.2.2 La evolución de los sistemas de información

Inevitablemente, la primera pregunta que surge al describir los objetivos de los

Los objetivos principales de un sistema de información son:

• Respuesta a eventos, énfasis en la transmisión, tratamiento sencillo.

Figura 1.5: Funciones de un Sistema de Información.

1.2.2.1 Primera generación: Consultas e informes basados en host

Los primeros sistemas de información empleaban aplicaciones por lotes (batch)

Esta primera generación de sistemas de información sólo podía ser

que tenían un conocimiento avanzado de acceso a datos, así como experiencia

Estos sistemas de información transaccionales eran aquellos sistemas que se

1.2.2.2 Segunda generación: Data Warehousing

La segunda generación de los sistemas de información de negocio trajo

• Estaban diseñados para satisfacer las necesidades de los usuarios de

1.2.2.3 Tercera generación: Business Intelligence

Un Data Warehouse no constituye todavía una solución completa para las

El punto importante aquí es que los productos de Data Warehouse raramente

Otra característica relacionada con el Data Warehouse es que hace excesivo

problemáticas de acceso a la información que contienen. Parece que el objetivo

Sin embargo, a no ser que la información en el Data Warehouse esté

Los sistemas de Business Intelligence también son sistemas de decisorios pero

1.2.3 Necesidad de los sistemas de Business Intelligence

Nos encontramos actualmente sumergidos en la era de la información. En

Las empresas recopilan enormes cantidades de datos en sus operaciones

En el análisis de los principales factores de cambio es conveniente insistir

1.2.4 Factores de cambio: La información

Nos encontramos actualmente sumergidos en la era de la información. En

En ciertos sectores, algunos hablan incluso ya de la desinformación. El ejemplo

En una empresa, la información está constituida por una fuente principal y

competencia existente; además, cuanta mayor jerarquía tengan quienes toman

Tanto respecto a la información externa como a la interna, actualmente se

- La sobre abundancia de la información