Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Intro Ducci On
Intro Ducci On
Los procedimientos de RI pueden ser modelados en varios niveles, por ejemplo, los
modelos cognitivos (Ingwersen 1992; Ellis 1989), que sern analizados en detalle ms adelante,
intentan proporcionar una visin holstica de la RI, para lo que deben comprender: el
mecanismo de recuperacin usado para equiparar la peticin de informacin con un conjunto
de documentos, as como, las formas en las que las necesidades de informacin del usuario
podrn ser formuladas como una peticin que pueda ser recuperada por ese mecanismo; la
interaccin hombre/mquina que tendr lugar para asegurar que cada interrogacin se
procesar de forma adecuada; y, por ltimo, los entornos sociales y cognitivos en los que se
desarrolla la interaccin. Estos modelos son claramente diferentes, en general y en sus bases
conceptuales, a aquellos otros que, como el modelo de espacio vectorial y el probabilstico,
proporcionan una definicin concreta de las tareas que componen los procedimientos de
bsqueda, por ejemplo, de los medios por los que el conjunto de trminos que representan una
peticin de informacin es equiparado con el correspondiente conjunto de trminos que
representa cada documento de la base de datos. En medio de estos dos extremos se
encuentran modelos como los basados en hipertexto (Agosti et al. 1992) o en sistemas
expertos distribuidos (Belkin et al. 1987), que definen un mtodo de bsqueda pero no
especifican necesariamente en detalle cmo puede ser implementado.
Modelos booleanos: La lgica de Boole ha sido la base utilizada para desarrollar la mayora de
los sistemas de recuperacin de datos y los sistemas convencionales de RI. En un sistema de
recuperacin booleano, los trminos de la pregunta se pueden relacionar mediante los
operadores lgicos AND, OR y NOT. El sistema devuelve, por tanto, aquellos documentos que
poseen combinaciones de trminos que satisfacen las limitaciones de la peticin,
proporcionando adems otros tipos de bsqueda suplementarias: bsquedas por truncamiento
y por proximidad. La inclusin de ambos tipos de posibilidades de bsqueda en los sistemas de
bases de datos en lnea, as como la opcin de restringir la bsqueda a campos concretos o
series de datos, permite tipos bastante sofisticados de preguntas (Hartley et al. 1990). El
modelo booleano, aunque est muy extendido, posee limitaciones importantes que reducen su
atractivo para la recuperacin de informacin textual (Cooper 1988; Salton et al. 1983):
En segundo lugar, existe muy poco control sobre el volumen del resultado producido
por una peticin concreta. Sin un conocimiento minucioso de los contenidos del fichero,
el usuario ser incapaz de predecir a priori cuntos registros van a satisfacer los lmites
lgicos de una peticin. El resultado de esto es que se necesitarn numerosas
reformulaciones de la pregunta antes de que se obtenga un volumen aceptable de
resultados.
Modelo de espacio vectorial: Despus del booleano, el modelo que mayor influencia ha tenido
en el desarrollo de la RI y, consecuentemente, en el desarrollo de sistemas comerciales de RI,
es el modelo de espacio vectorial. ste proporcion las bases de la extensa serie de
experimentos llevados a cabo por Salton y su equipo, que dieron como resultado el desarrollo
del llamado sistema SMART (Salton 1971a; Salton 1981).
La base de este modelo es que los trminos de indizacin son considerados como
coordenadas en un espacio informativo multidimensional. Documentos y preguntas son
representados mediante vectores en los que cada componente representa al trmino de
indizacin correspondiente, y el valor concreto de cada componente (peso) viene determinado
por el sistema de ponderacin empleado. El conjunto completo de componentes de un vector
determina la posicin del documento o de la pregunta en el espacio multidimensional, y la
similaridad entre un documento y una pregunta (su distancia en el espacio euclidiano) se
calcula mediante la comparacin de los respectivos vectores usando una funcin de similaridad
como el coeficiente del coseno, el de Dice o el de Jaccard.
El modelo de espacio vectorial es uno de los muchos que pretenden superar las
limitaciones del modelo booleano, pero tambin posee sus propias limitaciones. La crtica ms
relevante que se ha hecho a este modelo est relacionada con el uso de los trminos de
indizacin para definir las dimensiones del espacio en el que tiene lugar la recuperacin, este
uso supone que los trminos son ortogonales desde el punto de vista del espacio en cuestin,
lo cual no es correcto (Raghavan y Wong 1986). Una respuesta al problema de la ortogonalidad
fue incluida por Salton en su ltima monografa (Salton 1989), y para el creador del modelo
esta crtica tendr sentido en la medida en que consideremos que existe algn tipo de relacin
de subordinacin o similar entre los trminos, cosa que slo sera posible si ponderramos los
trminos sobre la base de su valor semntico o si stos fueran entradas precoordinadas de
algn vocabulario de indizacin.
El sistema OKAPI ilustra la puesta en prctica de tales principios. Existen, sin embargo,
muchas formas de incluir conceptos probabilsticos en los SRI. Una aproximacin que
recientemente ha suscitado mucho inters es el uso de redes de inferencia para ordenar de
forma descendente los documentos, segn la probabilidad de que satisfagan la necesidad
informativa del usuario en lugar de ordenarlos segn la probabilidad de que sean relevantes,
como ocurre en el modelo probabilstico original (Turtle y Croft 1990). Una caracterstica
importante del modelo de redes de inferencia es que permite explcitamente la inclusin y la
interaccin entre diferentes tipos de informaciones, como las representaciones de documentos
o preguntas resultantes del uso de varios mtodos de indizacin, para decidir en qu grado un
documento satisface una determinada necesidad.
Por ltimo, los mtodos basados en la evidencia han sido ampliamente estudiados por los
investigadores en Inteligencia Artificial, y ms concretamente en las redes de inferencia
Bayesianas, que son utilizadas para codificar la informacin disponible en una estructura en red
que contiene varios tipos de nodos. Cada nodo principal de un documento est asociado a un
conjunto de nodos hijos que caracterizan sus contenidos, y hay un conjunto similar de nodos
para describir el contenido de la pregunta. Se asocian probabilidades con cada nodo de la red, y
las estructuras de datos asociadas con esos nodos son usadas para especificar cmo combinar
la evidencia de diferentes tipos de informacin sobre un documento, y cmo relacionar la
evidencia resultante con los conceptos de la pregunta que representan la necesidad del usuario.
El resultado final es una estimacin global de la probabilidad de que un documento satisfaga
una determinada necesidad. Se han desarrollado ampliaciones con este mtodo incluyendo
retroalimentacin por relevancia e indizacin. Un ejemplo de esto es el sistema INQUERY, que ha
suscitado gran inters por los miembros de la comunidad investigadora de RI, como
herramienta de desarrollo y como base para sistemas comerciales (CIIR 1999).
Modelo cognitivo: Los modelos hasta ahora examinados estn relacionados con la forma del
documento y se estructuran sobre la base de representaciones indizadas y operaciones llevadas
a cabo con esas representaciones. Dentro de esta rea, existe una rica variedad de tipos de
documentos, formas de desarrollo de las representaciones, estrategias de bsqueda simples o
combinadas, pero, a pesar de todo, estos modelos estn aun notablemente limitados, y prestan
muy poca, o ninguna, atencin a los contextos sociales y cognitivos en los que estas tareas de
indizacin y bsqueda son llevadas a cabo (Ingwersen 1992).
Es importante consignar que estos modelos cubren muchos ms temas que los
comentados anteriormente, dado el carcter holstico que los modelos cognitivos tienen en
relacin con el proceso de recuperacin. Por ejemplo, si limitamos nuestra atencin al trabajo
de Belkin y sus colaboradores, las reas que han recibido una mayor atencin incluyen:
estudios empricos sobre el comportamiento del usuario que busca informacin, la creacin de
modelos de sistemas expertos distribuidos y el diseo de interfaces amigables para el usuario
(Belkin et al. 1987). Tal diversidad de temas se encuentra en otros muchos estudios centrados
en el comportamiento de los usuarios y presentes en la literatura sobre RI ver, por ejemplo,
(Bates 1989; Borgman 1989; Ellis 1989). Hemos preferido agrupar todos estos estudios bajo
la denominacin Modelos Cognitivos, ya que todos comparten el inters por los temas
relacionados con el usuario.