Está en la página 1de 5

INTRODUCCIN (Recordando cosas del curso de 3)

Las primeras investigaciones en Recuperacin de Informacin (RI) pusieron pronto de


manifiesto que los ordenadores podan proporcionar un enorme nmero de alternativas posibles
a los catlogos tradicionales, cdigos de clasificacin, etc., propios de los sistemas manuales de
RI. Esta toma de conciencia, junto con el notable resultado de los experimentos del proyecto
Cranfield II (Cleverdon 1967), facilit el desarrollo de una aproximacin estrictamente emprica
en la investigacin de RI que contina hasta nuestros das. Desde mediados de los setenta,
esta aproximacin basada en la prctica se ha visto complementada por otras basadas en la
teora que intentan modelar diferentes aspectos de los SRI.

Desarrollar un modelo adecuado permite no slo probar que la estrategia de recuperacin


A es mejor que la estrategia de recuperacin B, sino tambin proporcionar una justificacin
racional a priori segn la cual esto debera ser as. Por otro lado, otra ventaja importante que
conlleva la adopcin de una aproximacin basada en un modelo, es que cualquier modelo se
basar en un conjunto de conceptos predeterminados. La necesidad de especificarlos en detalle
cuando se est desarrollando el modelo, facilita el anlisis y la racionalizacin que puede ser
necesaria, si se detectan limitaciones cuando es puesto a prueba con un conjunto real de
documentos, preguntas de los usuarios y juicios de relevancia.

La conceptualizacin, por tanto, impulsa la experimentacin sugiriendo la realizacin de


nuevas pruebas, y, por el contrario, la experimentacin impulsa la teora proporcionando
resultados que pueden ser utilizados para mejorar el modelo original. La relacin entre teora y
prctica significa que las aproximaciones basadas en modelos juegan un papel cada vez ms
importante en la investigacin sobre RI, con la consiguiente mejora en la efectividad resultante
de su uso, que ahora est comenzando a trasladarse a los sistemas comerciales. Al mismo
tiempo, como muestra la experiencia del proyecto TREC, en una fase de estudio y evaluacin
totalmente nueva, la relacin entre un modelo general y las tcnicas de implementacin
especficas puede ser incierta y compleja, especialmente cuando mediante la combinacin de
diversos dispositivos y estrategias podemos alumbrar un SRI alternativo, no necesariamente
mejor, dentro el mismo modelo con relativa facilidad. Sin embargo, el hecho de que algunos
SRI explcitamente basados en modelos (SMART y SIRE por ejemplo) hayan funcionado
coherentemente bien en el TREC, ha reforzado la bsqueda de nuevos modelos de SRI.

Los procedimientos de RI pueden ser modelados en varios niveles, por ejemplo, los
modelos cognitivos (Ingwersen 1992; Ellis 1989), que sern analizados en detalle ms adelante,
intentan proporcionar una visin holstica de la RI, para lo que deben comprender: el
mecanismo de recuperacin usado para equiparar la peticin de informacin con un conjunto
de documentos, as como, las formas en las que las necesidades de informacin del usuario
podrn ser formuladas como una peticin que pueda ser recuperada por ese mecanismo; la
interaccin hombre/mquina que tendr lugar para asegurar que cada interrogacin se
procesar de forma adecuada; y, por ltimo, los entornos sociales y cognitivos en los que se
desarrolla la interaccin. Estos modelos son claramente diferentes, en general y en sus bases
conceptuales, a aquellos otros que, como el modelo de espacio vectorial y el probabilstico,
proporcionan una definicin concreta de las tareas que componen los procedimientos de
bsqueda, por ejemplo, de los medios por los que el conjunto de trminos que representan una
peticin de informacin es equiparado con el correspondiente conjunto de trminos que
representa cada documento de la base de datos. En medio de estos dos extremos se
encuentran modelos como los basados en hipertexto (Agosti et al. 1992) o en sistemas
expertos distribuidos (Belkin et al. 1987), que definen un mtodo de bsqueda pero no
especifican necesariamente en detalle cmo puede ser implementado.

La naturaleza de los modelos de RI es, en la mayora de los casos, de carcter


cuantitativo al haber sido extrados de disciplinas tan diversas como la lgica inferencial, la
estadstica o la teora de conjuntos. En los primeros estudios sobre RI se apunt que se haban
basado en modelos matemticos, no porque las matemticas per se sean una cosa buena, sino
porque la puesta en funcionamiento de un modelo matemtico generalmente obliga a un
cuidadoso anlisis formal del problema, a la especificacin de sus premisas y a la formulacin
explcita de la forma en que el modelo depende de ellas (Robertson 1977b). Esta aproximacin
cuantitativa es, por supuesto, menos aplicable y apropiada para aquellos modelos que se
inspiran en las ciencias cognitivas y del comportamiento.

Modelos booleanos: La lgica de Boole ha sido la base utilizada para desarrollar la mayora de
los sistemas de recuperacin de datos y los sistemas convencionales de RI. En un sistema de
recuperacin booleano, los trminos de la pregunta se pueden relacionar mediante los
operadores lgicos AND, OR y NOT. El sistema devuelve, por tanto, aquellos documentos que
poseen combinaciones de trminos que satisfacen las limitaciones de la peticin,
proporcionando adems otros tipos de bsqueda suplementarias: bsquedas por truncamiento
y por proximidad. La inclusin de ambos tipos de posibilidades de bsqueda en los sistemas de
bases de datos en lnea, as como la opcin de restringir la bsqueda a campos concretos o
series de datos, permite tipos bastante sofisticados de preguntas (Hartley et al. 1990). El
modelo booleano, aunque est muy extendido, posee limitaciones importantes que reducen su
atractivo para la recuperacin de informacin textual (Cooper 1988; Salton et al. 1983):

El mayor problema es que, sin un grado aceptable de preparacin, es difcil formular


peticiones que incluyan los operadores booleanos. Esto hace que a menudo sea
necesario realizar las bsquedas a travs de intermediarios expertos.

En segundo lugar, existe muy poco control sobre el volumen del resultado producido
por una peticin concreta. Sin un conocimiento minucioso de los contenidos del fichero,
el usuario ser incapaz de predecir a priori cuntos registros van a satisfacer los lmites
lgicos de una peticin. El resultado de esto es que se necesitarn numerosas
reformulaciones de la pregunta antes de que se obtenga un volumen aceptable de
resultados.

Un tercer problema es que la recuperacin booleana da como resultado una divisin


simple de la base de datos en dos grupos distintos de documentos: aquellos que se
equiparan a la peticin y los que no. De este modo, todos los registros recuperados
son, supuestamente, de la misma utilidad al usuario, y no existe ningn mecanismo
mediante el cual puedan ser ordenados de forma decreciente por su probabilidad de
relevancia.

Finalmente, el modelo booleano no prescribe formas explcitas de reflejar la importancia


relativa de los diferentes componentes de la pregunta, ya que la bsqueda booleana asume
implcitamente que todos los trminos tienen un peso 1 0, dependiendo de si estn o no
presentes en la pregunta. Estas limitaciones originan el desarrollo de modelos de lgica difusa o
borrosa, que reducen las estrictas clases de pertenencia de la lgica de Boole para aportar un
procedimiento de equiparacin que desencadena una gradacin de pertenencias, as como la
utilizacin de operadores difusos (Bookstein 1986). Estas propuestas generaron grandes
expectativas a principios de los ochenta, en la actualidad las aportaciones de la lgica difusa se
pueden encontrar en sistemas desarrollados de acuerdo con diferentes modelos para mejorar
algn aspecto concreto de su funcionamiento.

Mas recientemente se ha sugerido que la principal responsabilidad de un SRI es la


seleccin de aquellos documentos d de una base de datos, como respuesta a una pregunta p,
que satisfaga la implicacin lgica d p, donde denota el tipo de implicacin que es
definida por la lgica particular adoptada, y donde d y p son representaciones formales de la
semntica del documento y la pregunta (Rijsbergen 1986). Aunque esta es una propuesta
novedosa e interesante de cara al futuro, se aleja considerablemente de la forma en que hemos
visto aqu el hecho de la RI.

Modelo de espacio vectorial: Despus del booleano, el modelo que mayor influencia ha tenido
en el desarrollo de la RI y, consecuentemente, en el desarrollo de sistemas comerciales de RI,
es el modelo de espacio vectorial. ste proporcion las bases de la extensa serie de
experimentos llevados a cabo por Salton y su equipo, que dieron como resultado el desarrollo
del llamado sistema SMART (Salton 1971a; Salton 1981).

La base de este modelo es que los trminos de indizacin son considerados como
coordenadas en un espacio informativo multidimensional. Documentos y preguntas son
representados mediante vectores en los que cada componente representa al trmino de
indizacin correspondiente, y el valor concreto de cada componente (peso) viene determinado
por el sistema de ponderacin empleado. El conjunto completo de componentes de un vector
determina la posicin del documento o de la pregunta en el espacio multidimensional, y la
similaridad entre un documento y una pregunta (su distancia en el espacio euclidiano) se
calcula mediante la comparacin de los respectivos vectores usando una funcin de similaridad
como el coeficiente del coseno, el de Dice o el de Jaccard.

Esta sencilla interpretacin geomtrica de la recuperacin es comprensible de forma


intuitiva y fcilmente entendida por los no especialistas. Pero lo fundamental es que
proporciona una base terica comn para un gran nmero de operaciones de recuperacin,
incluyendo las de indizacin, retroalimentacin de las bsquedas por relevancia y clasificacin
automtica de documentos. La indizacin implica la asignacin de designadores de contenido a
los documentos (ponderacin de trminos), de manera que puedan ser fcilmente diferenciados
unos de otros en el espacio multidimensional de trminos descrito anteriormente. Adems es
posible evaluar la efectividad de un potencial trmino de indizacin mediante su valor de
discriminacin, que mide la capacidad de ese trmino para separar o unir documentos en el
espacio informativo multidimensional.

Otro componente importante de la RI, la retroalimentacin por relevancia, emplea el


resultado del juicio de relevancia que hace el usuario de la salida del sistema para reformular la
peticin de informacin, que es implementada en el modelo de espacio vectorial mediante la
modificacin del vector que la describe. De forma intuitiva, la retroalimentacin por relevancia
puede realizarse, o mediante la reponderacin de los trminos incluidos originalmente en una
pregunta, o alterando su composicin, aadiendo o borrando trminos. Por ejemplo, lo que
llamamos expansin de la pregunta se hace mediante la asignacin de pesos diferentes a cero a
aquellos componentes del vector correspondientes a los trminos que deben ser aadidos al
conjunto original de la pregunta.

El modelo de espacio vectorial se centra especialmente en los procedimientos de


equiparacin del vector de la pregunta con el de cada documento individualmente, de tal forma
que la decisin sobre qu documentos deben ser recuperados depende de la relacin entre
pregunta y documento, y no tiene en cuenta las relaciones que existen entre los documentos de
la base de datos (Codina 1995). Sin embargo, resulta sencillo demostrar que documentos
similares entre s (que estn en la misma zona del espacio multidimensional) suelen ser
igualmente relevantes a las mismas peticiones y deberan ser almacenados y recuperados
juntos. Esta observacin, que forma la base de la denominada Hiptesis del Cluster (Rijsbergen
y Sparck Jones 1973), sugiere que la equiparacin de una pregunta con conjuntos de
documentos obtendr mayores niveles de efectividad en la recuperacin que una operacin de
equiparacin que no tiene en cuenta las relaciones de similaridad existentes entre los
documentos de una base de datos (Willett 1988). Desgraciadamente, hasta ahora, no ha sido
posible hacer desarrollos comerciales de acuerdo con esta hiptesis que alcanzaran los
resultados esperados.

El modelo de espacio vectorial es uno de los muchos que pretenden superar las
limitaciones del modelo booleano, pero tambin posee sus propias limitaciones. La crtica ms
relevante que se ha hecho a este modelo est relacionada con el uso de los trminos de
indizacin para definir las dimensiones del espacio en el que tiene lugar la recuperacin, este
uso supone que los trminos son ortogonales desde el punto de vista del espacio en cuestin,
lo cual no es correcto (Raghavan y Wong 1986). Una respuesta al problema de la ortogonalidad
fue incluida por Salton en su ltima monografa (Salton 1989), y para el creador del modelo
esta crtica tendr sentido en la medida en que consideremos que existe algn tipo de relacin
de subordinacin o similar entre los trminos, cosa que slo sera posible si ponderramos los
trminos sobre la base de su valor semntico o si stos fueran entradas precoordinadas de
algn vocabulario de indizacin.

Modelo probabilstico: El xito del proyecto SMART, convirti rpidamente al de espacio


vectorial en el principal modelo de RI, y muchos de los trabajos de investigacin publicados
hasta hoy se basan, explcita o implcitamente, en este modelo. Sin embargo, a mediados de los
setenta se desarroll un modelo alternativo, que tomaba como punto de partida la premisa de
que la funcin primordial de un sistema de RI es ordenar los documentos de una coleccin en
orden decreciente de probabilidad de relevancia para una necesidad de informacin dada, esta
premisa es conocida como principio de ordenacin probabilstica. En realidad, todo el modelo se
basa en el contenido de la siguiente afirmacin que desarrolla el principio de ordenacin
probabilstica: Si la respuesta de un sistema de recuperacin a cada peticin es una lista de los
documentos de la coleccin en orden decreciente de probabilidad de utilidad para el usuario
que present la peticin, y en el que las probabilidades son estimadas de la forma ms precisa
posible partiendo de la base de que cualquier dato est disponible en el sistema con este fin,
por tanto, la efectividad global del sistema para sus usuarios ser la mejor que se pueda
conseguir partiendo de ese dato (Robertson 1977a).

La razn fundamental para introducir conceptos probabilsticos en el diseo de modelos


de RI es obvia: los SRI trabajan con lenguaje natural, y ste es demasiado impreciso para
permitir un sistema que defina con certeza qu documentos sern relevantes para cada
peticin. Justo lo contrario que sucede con las operaciones de recuperacin sin ambigedad
que tienen lugar en los DBMS (modelo booleano). Estas nociones probabilsticas fueron
introducidas de forma muy temprana en los trabajos de RI (Robertson 1977a; Maron y Kuhns
1960), pero tuvieron que pasar muchos aos antes de que se pudiera realizar una demostracin
prctica del potencial de este modelo, mediante el anlisis de una propuesta para la
ponderacin de los trminos de las preguntas utilizando informacin de relevancia (Robertson y
Sparck Jones 1976). Aunque en este experimento se adopt una aproximacin probabilstica de
la bsqueda, este mismo tipo de aproximacin tambin es aplicable a la indizacin en un SRI
como se haba planteado originalmente en los sesenta (Bookstein y Swanson 1974; Robertson
et al. 1981; Rijsbergen 1979).

El sistema OKAPI ilustra la puesta en prctica de tales principios. Existen, sin embargo,
muchas formas de incluir conceptos probabilsticos en los SRI. Una aproximacin que
recientemente ha suscitado mucho inters es el uso de redes de inferencia para ordenar de
forma descendente los documentos, segn la probabilidad de que satisfagan la necesidad
informativa del usuario en lugar de ordenarlos segn la probabilidad de que sean relevantes,
como ocurre en el modelo probabilstico original (Turtle y Croft 1990). Una caracterstica
importante del modelo de redes de inferencia es que permite explcitamente la inclusin y la
interaccin entre diferentes tipos de informaciones, como las representaciones de documentos
o preguntas resultantes del uso de varios mtodos de indizacin, para decidir en qu grado un
documento satisface una determinada necesidad.

Por ltimo, los mtodos basados en la evidencia han sido ampliamente estudiados por los
investigadores en Inteligencia Artificial, y ms concretamente en las redes de inferencia
Bayesianas, que son utilizadas para codificar la informacin disponible en una estructura en red
que contiene varios tipos de nodos. Cada nodo principal de un documento est asociado a un
conjunto de nodos hijos que caracterizan sus contenidos, y hay un conjunto similar de nodos
para describir el contenido de la pregunta. Se asocian probabilidades con cada nodo de la red, y
las estructuras de datos asociadas con esos nodos son usadas para especificar cmo combinar
la evidencia de diferentes tipos de informacin sobre un documento, y cmo relacionar la
evidencia resultante con los conceptos de la pregunta que representan la necesidad del usuario.
El resultado final es una estimacin global de la probabilidad de que un documento satisfaga
una determinada necesidad. Se han desarrollado ampliaciones con este mtodo incluyendo
retroalimentacin por relevancia e indizacin. Un ejemplo de esto es el sistema INQUERY, que ha
suscitado gran inters por los miembros de la comunidad investigadora de RI, como
herramienta de desarrollo y como base para sistemas comerciales (CIIR 1999).

Modelo cognitivo: Los modelos hasta ahora examinados estn relacionados con la forma del
documento y se estructuran sobre la base de representaciones indizadas y operaciones llevadas
a cabo con esas representaciones. Dentro de esta rea, existe una rica variedad de tipos de
documentos, formas de desarrollo de las representaciones, estrategias de bsqueda simples o
combinadas, pero, a pesar de todo, estos modelos estn aun notablemente limitados, y prestan
muy poca, o ninguna, atencin a los contextos sociales y cognitivos en los que estas tareas de
indizacin y bsqueda son llevadas a cabo (Ingwersen 1992).

La razn para trabajar en el desarrollo de un modelo cognitivo de RI fue expresada por


primera vez de la siguiente forma: cualquier proceso de informacin, ya sea perceptivo o
simblico, est mediado por un sistema de categoras y conceptos que, para el dispositivo
procesador de la informacin, son un modelo del mundo (De Mey 1980). Este punto de vista ha
propiciado el desarrollo de varios modelos de RI que otorgan un mayor grado de importancia al
usuario que los modelos descritos anteriormente. Estas nuevas aproximaciones parecen ser de
gran importancia si se va a disear un SRI efectivo para usuarios no experimentados, para
quienes la bsqueda en la base de datos puede tener menor importancia.

Los modelos cognitivos se centran en el comportamiento del buscador de informacin (la


formacin, naturaleza y propiedades de una necesidad de informacin en el usuario) y en las
formas en que los SRI son usados en su entorno de funcionamiento. Los estudios llevados a
cabo en este campo han servido para determinar: los diversos tipos de informacin que un
usuario puede requerir para buscar; la forma en que las necesidades de informacin pueden
cambiar durante el curso de la interaccin con un SRI, esto precisa el diseo de interfaces
flexibles que puedan facilitar la interaccin usuariosistema; y el grado en que las diferentes
herramientas de representacin y bsqueda con que contamos necesitan ser combinadas si la
recuperacin pretende tener xito.

Es importante consignar que estos modelos cubren muchos ms temas que los
comentados anteriormente, dado el carcter holstico que los modelos cognitivos tienen en
relacin con el proceso de recuperacin. Por ejemplo, si limitamos nuestra atencin al trabajo
de Belkin y sus colaboradores, las reas que han recibido una mayor atencin incluyen:
estudios empricos sobre el comportamiento del usuario que busca informacin, la creacin de
modelos de sistemas expertos distribuidos y el diseo de interfaces amigables para el usuario
(Belkin et al. 1987). Tal diversidad de temas se encuentra en otros muchos estudios centrados
en el comportamiento de los usuarios y presentes en la literatura sobre RI ver, por ejemplo,
(Bates 1989; Borgman 1989; Ellis 1989). Hemos preferido agrupar todos estos estudios bajo
la denominacin Modelos Cognitivos, ya que todos comparten el inters por los temas
relacionados con el usuario.

Algn autor, como ya dijimos anteriormente, ha establecido diferencias entre lo que l


denomina los paradigmas fsico y cognitivo en la investigacin de la recuperacin de la
informacin (Ellis 1992). Ingwersen por su parte hace una distincin similar entre las dos
aproximaciones, pero reconoce las muchas relaciones existentes entre ellas; por ejemplo,
destaca los fuertes vnculos que existen entre su teora cognitiva de la RI y los modelos de
lgica inferencial, anteriormente descritos (Ingwersen 1996). Tambin destaca que la
efectividad de la teora cognitiva ser potenciada por el uso combinado de varios tipos
diferentes de representacin del texto y de mecanismos de bsqueda, esto se puede conectar
con el trabajo actual sobre la fusin de datos (Belkin et al. 1995). Existen pruebas directas e
indirectas que avalan el uso de los modelos cognitivos, ahora queda por ver si es posible
desarrollar SRI basados en ellos, para realizar despus evaluaciones de su factibilidad que
demuestren su capacidad para superar a los sistemas desarrollados de acuerdo con los modelos
anteriores.

También podría gustarte