Está en la página 1de 100

rnndez Molina oya Anegn

ASOCIACIN ANDALUZA DE BIBLIOTECARIOS

025.3132/F3b3c Fernndez t1olin::. Juan Carlos Los catlogos de acceso pblico en l!ne Acceso: 117516

LOS CATLOGOS DE ACCESO PBLICO EN LNEA


El futuro de la recuperacin de informacin bibliografica

Juan Carlos Fernndez Malina Flix de Moya Anegn

LOS CATLOGOS DE ACCESO PBLICO EN lNEA


El futuro de la recuperacin de informacin bibliogrfica

ASOCIACIN ANDALUZA DE BIBLIOTECARIOS

PRESENTACIN

Tanto Juan Carlos Fernndez Malina como Flix de Moya Anegn, autores del libro que tengo la satisfaccin de presentar, profesores de la Facultad de Biblioteconoma y Documentacin de la Universidad de Granada ambos y decano de la misma el segundo, son el fruto de un centro universitario real mente joven -como lo son todos los de esta especialidad en Espaa, donde las enseanzas regladas de Biblioteconomia apenas superan los diez aos de antigedad como trmino medio-, que han hecho de la docencia un irre nunciable ejercicio de superacin diaria, pasando en muy poco espacio de tiempo de un andar lgica y comprensiblemente titubeante e inseguro al manejo riguroso de la disciplina cientfica y a la decidida voluntad de hacer partcipe a la comunidad bibliotecaria del fruto de sus conocimientos. El libro que nos ocupa es la ms clara manifestacin del avance expe rimentado en tan poco tiempo por nuestra literatura cientfica, donde hemos pasado sin lugar para la sorpresa de manejar manuales genricos y teori zantes a monografas sobre la prctica puntual de determinados procesos del quehacer bibliotecario. Como todo en la vida este libro nace con un determinado destino. Sus pginas, que recogen, como queda dicho, los conocimientos y experiencias didcticas de sus autores, han sido elaboradas con el pensamiento puesto en una amplia gama de beneficiarios: por una parte los actuales y futuros alumnos de las escuelas y facultades de Biblioteconomia y Documentacin; pero tambin para quienes aspiran a incorporarse al mundo profesional y, cmo no, para los que llevamos aos ejerciendo y debemos actualizar peri dicamente nuestros conocimientos, e incluso para los usuarios de las bibliotecas.
Juan Carlos Fernndez Malina y Flix de Moya Anegn

De esta edicin Asociacin Andaluza de Bibliotecarios


Diseo de cubierta: Antonio Herriz.

Imprime: lmagraf, S.A.


I.S.B.N.: 84-920914-1-X Depsito Legal: MA-620/98

Confluyen en esta obra, junto a otras bondades, dos de los conceptos bsicos de lo que es un manual en nuestros das. Por una parte participa del concepto de ser una obra de carcter esencialmente didctico, que contiene lo fundamental de una materia y, por otra, aunque no pueda ser llamada con propiedad obra colectiva, s es obra conjunta, donde cada uno de sus auto res ha tomado a su cargo una parte del tema y la desarrolla de forma com petente.

. Por nuestra parte, por la Asociacin Andaluza de Bibliotecarios quiero dec1r que, eJhecho de que los autores hayan depositado en nosotros su con fianza constituye.una satisfaccin, pero tambin un desafo, por cuanto no debe acabar aqUI esta aventura editorial. Evidentemente no es nuestra pri mera expenenc1a ed1tonal: nos avalan nuestro Boletn (en su nmero 50 ya) las 10' Actas de las Jornadas Bibliotecarias de Andaluca celebradas hast el momento Y algunas otras publicaciones puntuales, como la ISBD {M), los Pnnc1p1os de Clas1ficac1on de Registros Audiovisuales etc Pero h d 1 , ay que ec1r o, con la ed1c1on del libro de los profesores Fernandez Malina y Moya Anegan creemos entrar en otra d1mens1on de dicha experiencia. y ello nos pone ante el comprom1so de seguir en el futuro por esta senda que ahora iniCiamos.

PRLOGO

Antonio Martn Oate Presidente de la Asociacin Andaluza de Bibliotecarios

El libro que el lector tiene en sus manos (presumiblemente un bibliotecario, ojala que tambin algn informatice especializado en el desarrollo de aplica ciones) es un ejemplo perfecto de lo que podra denominarse la nueva biblio teconoma espaola. Recuerdo que en cierta ocasin, y en una visita a cier ta biblioteca nacional, una de las mas importantes del mundo, un Director (no dir cual) de la Biblioteca Nacional de Espaa, al que yo acompaaba, me coment en voz baja, al seguir las conversaciones con los bibliotecarios anfi triones sobre diferentes aspectos tcnicos: "Lo malo de los bibliotecarios espaoles es que sois intercambiables con cualquiera de stos", susurr. "Y lo que nos ha costado", pens yo para m. Quiero sealar con ello que la bblioteconomia (y lo que nos ha cos tado!) que se ensea en Espaa posee un nivel absolutamente parangona ble con la de cualquier otro pas avanzado y este libro es una prueba con cluyente de ello. Digo con la biblioteconoma que se ensea, con la bibliote conoma acadmica, la que no quiere decir su nombre y se refugia en algo tan etreo como la palabra documentacin. Por el contrario, quiza la biblio teconoma que se practica en Espaa posea algn retraso todava. Por ello, el dia que ambas confluyan tanto en lo que se refiere a criterios como a rea lizaciones practicas poco habra que envidiar a otros pases. El que estemos lejos o cerca de ello es cuestin de poltica y, sobre todo, de voluntad biblio tecaria y docente, por aquello de que querer es poder. Tan acadmico es el estilo de esta obra que acaso habra quien diga que peca de excesivamente fria. Y tal vez ese sea uno de lo pocos defectos que pueda achacarsele. Su analisis esta demasiado desligado de la realidad bibliotecaria espaola a la que por el contrario va plenamente dedicada. Me permitir pues el lector que este prlogo abandone algo la correccin acad mica (ya lo ha hecho en las lneas anteriores) y sean mis palabras de pre sentacin algo polmicas. Va a caer este libro en terreno abonado o se orientara al laboratorio, donde, bien es cierto, se van seleccionando los futuros tipos de grano que daran mejores cosechas? Lo cierto es, a mi criterio, que los bibliotecarios

espaoles sienten tal sndrome de Estocolmo hacia sus sistemas integrados de gestin bibliotecaria que no parece sino que los hubieran elegido ellos mismos, en lugar de series impuestos, como es la realidad en la mayora de los casos. Ante una indefensin tal, puede uno preguntarse si de las ense anzas de este libro -tan claras, tan ntidas, tan evidentes- se seguirn acciones orientadas a modificar (para bien, se supone; pero el error es una posibilidad antes de cualquier proyecto de desarrollo) el paquete con el que trabajan esos bibliotecarios y a travs del cual se establece la comunicacin entre el usuario y la coleccin bibliogrfica. No digo aqu informacin, adre de. Qu coleccin? Cualquier coleccin. Pero antes que ninguna, la de la propia biblioteca automatizada. Por eso la documentacin es etrea. De la realidad virtual a la cruda realidad. Porque es evidente que nuestros sistemas automatizados (y digo nuestros llevado por la retrica) son manifiestamente mejorables. Justamen te ah, en el OPAC. Es necesario introducir muchas y muy importantes mejo ras en el subsistema de acceso a la informacin y al documento; sobre todo al documento, al libro, al articulo de revista, a la tesis doctoral... o al tebeo en caracteres del cuerpo catorce o diecisis. Cuando se comparan las funcionalidades que ofrecen los grandes sistemas de venta de libros o discos por INTERNET con las denominadas respuestas del sistema de nuestros OPAC parece que estuviramos en dos mundos distintos. Y es verdad que lo esta mos. No, no aconsejara yo a ninguna biblioteca que saliera a bolsa, al menos, no por el momento. En la misma linea y de forma consecuente, deberan introducirse otras urgentes mejoras en todos los subsistemas, cuyo reflejo visible ser el OPAC. Pero si los bibliotecarios no son capaces de obligar a que se cambie la estruc tura de la informacin de un sistema de gestin bibliotecaria seremos capa ces de optimizar nuestro OPAC?. Quiz con este libro el bibliotecario tendr una herramienta con la que en lugar de sentirse preso de su sistema auto matizado se sienta dueo de l, puesto que dispondr de criterios para evaluar las funcionalidades que el sistema posee, criticarlas y propugnar mejoras. Ser posible? A la vista del Seminario que la Universidad de Cantabria cele br este verano de 1997 sobre los Catlogos Colectivos en el estado espaol y cmo la pattica inexistencia de una acuerdo sobre la estructura lgica de los registros impide (entre, otras cosas) la existencia de un catalogo colectivo espaol, de fuerte proyeccin a lberoamrica, es legitimo albergar dudas, pero no puedo por menos que reconocer que yo soy una persona optimista. Seria, desde luego, una ayuda para poner una PICA, no en Flandes que hace ya muchos aos que tienen una, sino aqu que falta hace. Lo que vengo diciendo quiz encuentre carta de naturaleza si se repa ra en las citas bibliogrficas sobre las que se sustenta este libro. Espaolas,

se pueden contar con los dedos de una mano. Menos de media docena de elles de nuestro ratn, para actualizar la frase. Estn destinadas fundamen talmente a comentar y a evaluar el OPAC de la Biblioteca Nacional. No hay muchos desarrollos ms. No deja de ofrecer por consiguiente inters el an lisis de los proyectos de mejoras de OPAC basados en los sistemas de cla sificacin, tan detalladamente analizadas en este libro. Es evidente que dado el fundamento lgico en el que se asientan, la teora de clases, la posibilidad de encontrar informacin pertinente es considerable. Pues bien, basado en ello un reducido grupo de bibliotecarios animosos (por eso era animoso el grupo) intent incorporar estas caractersticas lgicas, as como el resto de las inherentes a la CDU, a las funcionalidades de recuperacin del OPAC de la Biblioteca Nacional. El proyecto lo abort quien tenia poder para hacerlo, a falta de conocimientos bibliotecarios y visin de futuro. Si alguien desea conocer esta experiencia podr encontrarla en el volumen que public la FID cuando celebr su Congreso en Madrid en, ay!, una fecha ya tan lejana como la de 1992. Ligado con lo anterior, se encuentran los denominados sistemas expertos o tambin por estos lares sistemas de representacin y procesamiento automtico del conocimiento, pues con tan estrambtico nombre y con predecibles resultados algunos impartimos esa asignatura en las Facul tades de Documentacin. Es natural, a la vista de un sintagmazo de seme jante tonelaje, que le expresin KBS (knowledge based systems) se vaya imponiendo. No es el momento de discernir ahora si la CDU o cualquier otro sistema de clasificacin es o puede llegar a ser una base de datos de cono cimiento, para usar la terminologa de la inteligencia artificial. Si quiero, sin embargo, aprovechar la ocasin para poner de manifiesto como es necesa rio hilar muy fino a la hora de llevar a cabo una fase de anlisis previo (sien do a su vez parte de l) a cualquier proyecto de desarrollo informtico. Y que nicamente los bibliotecarios, a partir de una buen bagaje epistemolgico, deben dar de si lo mejor en esa tarea. En el libro que el lector se dispone a leer hay buenos ejemplos de ello. En realidad, el libro es un completo prontuario de buenas costumbres bibliotecarias. En l se demuestra como, a partir de la comprobacin de la insuficiencia de las funcionalidades de los OPACS es posible, indispensable, imprescindible, desarrollar y escribir nuevos programas que doten a nuestros sistemas de ms potentes funcionalidades. Y permitir, por lo tanto, que toda la informacin est disponible para todo el mundo desde cualquier sitio y con seguir de esa manera el objetivo esencialmente democrtico de la biblioteca.

Xavier Agenjo Bulln Director de la Biblioteca de Menndez Pelayo

INTRODUCCIN

Los catlogos en linea son los sistemas automatizados de recuperacin de informacin que se encuentran disponibles de manera ms general y los pri meros a Jos que suele recurrir cualquier usuario cuando tiene una necesidad de informacin. Desgraciadamente, los OPAC que en la actualidad se en cuentran a disposicin de los usuarios estn muy lejos de proporcionar los servicios que se espera de ellos, debido a importantes deficiencias en su diseo. Para intentar solucionar estos problemas se ha llevado a cabo una intensa labor de investigacin en numerosas universidades y en instituciones tales como OCLC. Como sealan Micheline BEAULIEU y Christine BORG MAN (1996], la investigacin sobre los catlogos en linea no es algo que se circunscriba al contexto de las bibliotecas, sino que abarca a otras muy dife rentes reas cientficas. Es posible distinguir tres grandes objetivos en este trabajo. El primero de ellos consiste en llevar a cabo un anlisis minucioso y exhaustivo de la bibliografa cientfica relativa al desarrollo de los OPAC. As, se utilizan como punto de partida los problemas detectados para, a continuacin, examinar y someter a evaluacin las soluciones que han sido propuestas en los distintos proyectos y sistemas experimentales. En ningn caso pretendemos hacer una evaluacin de catlogos en linea comerciales concretos, sino hacer un analisis conjunto de las aportaciones que desde d"1stintos sectores de inves tigacin intentan que los OPAC sean sistemas mas adecuados para satisfa cer las necesidades de informacin de los usuarios. En segundo lugar, el analisis de los problemas detectados y de las solu ciones que se han ofrecido para acabar con ellos, nos debe servir de base para hacer una propuesta concreta de las caractersticas y prestaciones de un OPAC de prxima generacin en todo lo relativo a la recuperacin documen tal. En este sentido, hay que sealar que no le hemos dedicado atencin a las caractersticas funcionales de los catlogos en lnea que no estan directa mente re-lacionadas con la recuperacin de informacin: posibilidades de teJe descarga, impresin, estadsticas, etc. Esto es, nuestro trabajo se centra de manera prioritaria en los mtodos de recuperacin y procesamiento de la bs queda, el interfaz de usuario y el contenido de la base de datos.

En el anlisis de las investigaciones nos hemos encontrado con un importante problema. Debido a la interdisciplinariedad de este rea de inves tigacin, los proyectos y experimentos proceden de muy diversos mbitos e instituciones, utilizan metodologas diferentes y tienen objetivos diversos e incluso contradictorios, lo que supone una dificultad aadida a la hora de evaluar sus resultados y perspectivas de desarrollo futuro. Precisamente por eso, el tercer objetivo que hemos intentado conseguir es ofrecer una visin conjunta y relativamente homognea que integre las distintas corrientes. Estas pueden resumirse en dos: algortmica y cognitiva [lngwersen y Willett 1995]. La primera, totalmente dominante durante dcadas en la investigacin en recuperacin de informacin, tiene como presupuesto bsico que el cono cimiento sin un fundamento en la medida "es de tipo mediocre e insatisfac torio" [Cieverdon y Keen 1966]. La segunda, mucho ms reciente, se basa en el inters por los aspectos humanos de la bsqueda y recuperacin de infor macin [DERVIN y NILAN 1986]. Las insuficiencias de la perspectiva clsica han sido puestas de mani fiesto de manera repetida en los ltimos aos. En este sentido, se ha pues to especialmente de relieve la importante contradiccin existente en el hecho de llevar a cabo una investigacin de naturaleza eminentemente cuantitativa unida inseparablemente al concepto de relevancia, de evidente carcter cua litativo [ROBERTSON y HANCOCK-BEAULIEU 1992; SCHAMBER et al. 1990]. Desde el punto de vista contrario, tambin es posible argumentar que las investigaciones que utilizan enfoques cognitivos, de comportamiento o afectivos no tienen suficiente solidez desde el punto de vista de la metodolo ga cientfica. En cualquier caso, parece claro que todo lo que tenga que ver con la bsqueda y uso humanos de informacin tiene unos componentes subjetivos lo suficientemente importantes como para no pasarlos por alto. Como seala David ELLIS [1996]. no se trata de abogar por la adopcin de una metodologa de carcter anecdtico, sino ms bien reconocer que el dile ma de la medida no es solucionable dentro de un marco de trabajo concep tual y metodolgico basado exclusivamente en los tests de Cranfield, ya que esto supone simplificar en exceso la complejidad inherente a la interaccin en la recuperacin de informacin. Esto es, el objetivo de la cuantificacin se consigue a expensas de la validez tanto dentro como fuera del entorno expe rimental. En nuestra opinin, estas dos corrientes no son totalmente contradic torias, por lo que a lo largo de este trabajo hemos intentado conseguir un equilibrio entre ellas. Por otra parte, tambien hemos intentado centrar nuestra atencin en el problema de la superacin, por la via de la mejora funcional, de los sistemas actualmente en uso. Es frecuente que los especialistas en recuperacin de

informacin se lamenten de la lentitud con que se trasladan a los productos comerciales los supuestos avances que la investigacin genera. Este hecho adquiere especial significacin cuando analizamos las prestaciones de los motores de bsqueda que utilizan de forma generalizada las bibliotecas de nuestro entorno. Parece como si toda la investigacin realizada en este campo desde finales de los setenta no hubiera existido. Bsicamente sus prestaciones se reducen a la utilizacin de ndices de palabras claves y/o autoridades y operadores booleanos. Nuestra intencin en relacin con este problema ha sido siempre tratar de establecer el necesario vinculo entre las funcionalidades de los sistemas actuales y las de los futuros. La naturaleza de esta obra ha exigido una exhaustiva revisin biblio grfica que nos permitiera conocer cul es la situacin actual de los catlo gos en linea y de la investigacin relacionada con la mejora de sus presta ciones. Por tanto, es importante que comentemos cules son las publicacio nes que hemos utilizado y los autores que nos han servido de guia en este estudio. Un vistazo a la lista de referencias bibliogrficas pone de manifiesto la apabullante mayora de la bibliografa profesional de origen anglosajn. Este predominio -tanto cuantitativo como cualitativo- es norma en casi todas las reas de investigacin, pero todava es mucho ms acusado en nuestro campo y, en especial, en todo lo que tiene que ver con la recuperacin de informacin, como comentaremos a continuacin. En este sentido, tenemos la esperanza de que nuestro trabajo pueda servir de guia o punto de partida para otras investigaciones en este rea en nuestro mbito geogrfico. En este punto, nos gustara resear un reciente artculo de los finlan deses JARVELIN y VAKKARI [1993]. en el que llevan a cabo un anlisis de la investigacin en biblioteconomia y documentacin desde 1965 a 1985 a travs del examen de las principales revistas de este rea. Sus resultados ponen de manifiesto que el conjunto ms grande de articulas -a gran dis tancia del resto- es el dedicado a los problemas de recuperacin de infor macin (entre el 26 y el 32 por ciento). Sin embargo, este predominio no se da en nuestro pas, por lo que no hemos podido contar con bibliografa sobre esta materia que se circunscriba al contexto espaol. No obstante, salvo excepciones como el uso de los esquemas clasificatorios, con objetivos com pletamente diferentes en los paises anglosajones y en los de la Europa con tinental, la mayora de las cuestiones a investigar y los resultados obtenidos son igualmente vlidos en los dos mbitos geogrficos. Por lo que respecta a las publicaciones utilizadas, hemos recurrido a las principales revistas de nuestro campo de trabajo. Tanto aquellas dedica das a una investigacin ms "pura", con importante participacin de invest-

gadores no relacionados directamente con el mundo bibliotecario: Joumal of

the American Society for /nformation Scence, lnformation Processing and Management, Joumal of Oocumentation o Annua/ Review of lnformation Science and Technology, como las que tratan los problemas de la bibliote conomia y la documentacin desde un punto de vista ms profesional: lnformaton Teclmology and Libraries o Library Resources and Technical Servces. Adems, dado ese carcter interdisciplinar de la investigacin en este rea que hemos comentado previamente, se ha hecho uso de otras revistas cuya dedicacin a la biblioteconomia y documentacin es marginal: lntemational Joumal of Man-Machine Studies o algunas de las revistas de la Asso ciation or Computing Machinery (ACM). No es ocioso resear que las revis tas que hemos utilizado ms frecuentemente -las pertenecientes a los dos primeros grupos- son las que se sitan en lo alto del ranking de acuerdo con el nmero de citas recibidas establecido por el Joumal Citation Reports.
Para explicar cules han sido los autores que nos han servido como punto de partida para el desarrollo de este trabajo vamos a comentar otro reciente articulo [PERSSON 1994]. Su objetivo fue el de descubrir la base intelectual de nuestro rea de investigacin y para ello llev a cabo un anli sis de citas de los artculos publicados en JASIS entre 1986 y 1990. En base a las cocitaciones llev a cabo un proceso de ctustering para agrupar a los autores ms cocitados, dando lugar a un mapa o distribucin de los mismos. Los resultados muestran que la representacin obtenida es muy similar a otras obtenidas por diferentes mtodos, como la clsica de WHITE y GRIFFITH [1981]. Los c/usters resultantes muestran la existencia de dos grandes reas dentro de la biblioteconomia y la documentacin: bibliometria y recuperacin de informacin. Esta -con diferencia la de mayor tamao- se divide a su vez en dos subreas: a) la que podramos denominar "hard", esto es, la dedica da a los aspectos "algortmicos" de la recuperacin de informacin y b) la denominada "soft", es decir, centrada en los aspectos humanos de la bs queda y recuperacin de informacin. La primera de estas dos subreas incluye temas tales como la recu peracin mediante lgica booleana, mediante tcnicas probabilsticas, de lgica difusa o de espacio vectorial, procesamiento del lenguaje natural, ordenacin de los resultados de la recuperacin o evaluacin de la recupe racin de informacin. Los principales autores de este rea son Croft, Saltan, Van Rijsbergen, Robertson, Belkin, Cooper o Saracevic. En cuanto a la segunda de las subreas incluye temas como interaccin entre usuario y sis tema, comportamiento en la bsqueda de informacin, bsqueda en linea, catlogos en linea o usuarios finales. Los autores ms significativos son en este caso Bates, Borgman, Bellardo o Markey.

Si hacemos un anlisis de las referencias bibliogrficas de nuestro tra bajo podemos comprobar que tambin sigue la tendencia de la investigacin de Persson. Por un lado, hemos recurrido abundantemente a los lideres de la subrea "hard" (BELKIN, SALTON o CROFT) y, por otro, a los de la sub rea "soft" (BATES, BORGMAN o MARKEY). Evidentemente, eso nos propor ciona una cierta garanta de que hemos recurrido a las fuentes adecuadas. No obstante, hay varios autores que merecen un comentario aparte, ya que sus trabajos nos han sido de gran ayuda y, sin embargo, no aparecen en el estudio de Persson. Se trata de Charles HILDRETH, Ray LARSON, Miche line HANCOCK-BEAULIEU y Stephen WALKER. Los cuatro han dedicado sus esfuerzos investigadores precisamente a los catlogos en lnea y sus aportaciones son abundantemente citadas. En el caso de Hildreth, su no apa ricin puede explicarse por el hecho de que sus investigaciones han tenido ms repercusin en las revistas ms cercanas a la profesin bibliotecaria. En cuanto a Ray LARSON, aunque es el responsable de uno de los proyectos ms interesantes en este rea, el sistema Cheshire, la mayora de sus publi caciones son muy recientes, por lo que no han sido recogidas por el estudio de Persson. Por ltimo, respecto a los britnicos Hancock-Beaulieu y Walker, quiz sea su origen geogrfico lo que haya provocado que no aparezcan muy citados. No obstante, su labor investigadora en el proyecto OKAPI de la City University londinense es totalmente digna de mencin y ha marcado el cami no a seguir a otros grupos de investigacin. Una vez comentados los objetivos que se persiguen en este investi gacin y las fuentes utilizadas para ello, es el momento de intentar explicar cul es el hilo argumental que siguen sus captulos. El capitulo segundo se ocupa de hacer una amplia introduccin al desarrollo de los catlogos en linea, cmo surgieron histricamente, cules eran sus caractersticas funcionales y sus principales defectos. Para ello hemos utilizado el clsico esquema de tres generaciones de Charles Hil dreth, ya que es un excelente punto de partida para analizar los orfgenes de los catlogos en linea, las mejoras incorporadas por la segunda generacin y, por ltimo, las caractersticas que deber tener esa futura tercera genera cin. Por otro lado, para el anlisis de sus principales problemas hemos usado la diferenciacin establecida por BORGMAN [1986b] entre problemas mecanicos y problemas conceptuales. Una vez que hemos conseguido una idea bastante completa de la situacin actual de los OPAC, el capitulo siguiente, el tercero, se centra especficamente en el acceso por materias. Este inters especial esta total mente justificado por los diversos estudios que demuestran que es la moda lidad de acceso ms utilizada por los usuarios y que stos la consideran como la ms deficiente y, por tanto, la mas necesitada de mejora.

Nuevamente, volvemos a seguir la metodologa ya mencionada, es decir, utilizamos como punto de partida los problemas detectados (resumidos por Larson como fallo en la bsqueda y sobrecarga de informacin), para a continuacin analizar y evaluar las soluciones que se han ido proponiendo, centradas en los tres componentes bsicos de cualquier catlogo en linea: base de datos, mtodos de bsqueda y recuperacin e interfaz de usuario. Lgicamente dedicamos mayor atencin a aquellas soluciones e investiga ciones que nos parecen de mayor inters. O, en el caso de los sistemas de clasificacin, posponemos su examen para un capitulo posterior en el que sern objeto de anlisis con mucho mayor detalle. El capitulo siguiente se dedica a ver el problema de los catlogos en linea en su contexto ms amplio, el de la bsqueda de informacin. A este respecto, el dominio ya mencionado de la perspectiva algortmica en la inves tigacin en recuperacin de informacin ha producido que en muchas oca siones los investigadores se olvidaran de que los sistemas de recuperacin tienen como objetivo ltimo el de ayudar a las personas a encontrar la infor macin que necesitan para resolver un determinado problema. Este modelo clsico de investigacin no tenia en cuenta elementos fundamentales tales como que la informacin se busca para satisfacer una determinada necesi dad de un usuario concreto, que cada persona tiene una diferente forma de buscar informacin y de expresar su necesidad, que hay importantes ele mentos subjetivos y afectivos que influyen en la bsqueda de informacin, etc. El reconocimiento de la importancia de este tipo de elementos subjetivos y cualitativos en todo Jo relacionado con la bsqueda de informacin ha dado lugar a un cambio de paradigma y a la aparicin de los sistemas que inten tan fomentar la interaccin y el dilogo entre usuario y sistema.
;,

clustering. Una de las opciones que se han planteado para mejorar la recu peracin de informaciqn en los catlogos en linea, en especial la de natura leza temtica, es la del uso de la informacin clasificatoria incluida en los registros MARC de todos Jos catlogos automatizados. Aunque ha habido algunas opiniones contrarias a esta linea de investigacin, nosotros conside ramos que si que presenta suficientes ventajas como para seguir investigan do en ella. Por ello le hemos dedicado bastante atencin al anlisis de los principales proyectos de investigacin -de los que el DDC Online Project es el ms significativo- que han hecho uso de los esquemas de clasificacin. Por otro lado, tambin hemos incluido en este capitulo unas tcnicas que tienen un origen completamente diferente, las tcnicas de clustering. Estas proceden de la investigacin que hemos denominado "algortmica" y han sido ampliamente utilizadas en muy diversos entornos con resultados bastante satisfactorios. Las evidentes relaciones entre los esquemas clasifi catorios y las tcnicas de c/ustering (que se dedican a agrupar o clasificar de manera automtica mediante algoritmos) han dado origen a que en diversas investigaciones se hayan utilizado de manera conjunta. En nuestra opinin, este uso mixto de herramientas bibliotecarias y matemticas puede conse guir resultados muy interesantes, como lo demuestran los proyectos Cheshi re o SLC, ampliamente comentados en este capitulo. El siguiente capitulo lo dedicamos, en primer lugar, a hacer una revi sin global de las deficiencias de los catlogos en linea actuales. Para ello se utilizan como punto de partida los dos modelos -el del fichero manual y el de los IRS- que siguen siendo la base de su diseo y el origen de sus pro blemas. A continuacin, y haciendo uso de todas las conclusiones extradas a lo largo del trabajo, desarrollamos una propuesta concreta respecto a los requisitos que debe reunir -y la forma de conseguirlo- un catlogo en linea que satisfaga realmente las necesidades de los usuarios actuales, teniendo en cuenta sobre todo las enormes posibilidades de interconexin que ofrece la tecnologa en red. Por ltimo, en el apndice final hemos recogido una muestra de con sultas realizadas mediante diferentes sistemas existentes en bibliotecas espaolas en modalidades de acceso remoto, que nos permiten comparar someramente las prestaciones de los OPAC tradicionales an en uso. Una cuestin que siempre se plantea cuando redactamos un trabajo de investigacin en nuestro campo es el del uso de determinados anglicis mos. Aunque somos partidarios de evitarlos en la medida de lo posible, hay ocasiones en que resulta prcticamente imposible, ya sea porque no existe un trmino equivalente adecuado o porque el que hay puede inducir a con fusin al no significar exactamente lo mismo. De esta forma, hemos optado

'

Este nuevo paradigma tiene entre sus consecuencias ms importantes el reconocimiento del browsing como el mtodo ms adecuado para la bs queda de informacin en los catlogos en linea, ya que no requiere una importante carga cognitiva y refleja la manera natural en que las personas buscan informacin. Dado que estamos absolutamente de acuerdo con las anteriores afirmaciones, hemos dedicado buena parte de ese capitulo a su estudio. Analizando en qu consiste, qu tipos hay, cules son sus ventajas, las diferencias entre llevarlo a cabo en un entorno manual o en uno automa tizado y, sobre todo, cules son las formas en que se puede implementar en un catlogo en linea y qu requisitos respecto a la organizacin de la infor macin es necesario cumplir. Nuevamente, en este apartado dedicado al browsing, se lleva a cabo un anlisis de diversos proyectos de investigacin y sistemas experimentales. El capitulo quinto se centra en cuestiones mucho ms especificas que las anteriores, el uso de las clasificaciones bibliotecarias y de las tcnicas de

por mantener el uso de algunos de tales anglicismos: "cluster", "relevance feedback", "query", etc. Un comentario especial merece el trmino "brow sing", ya que se ha traducido a nuestro idioma de diversas formas, entre las que se encuentran "ojeo", "hojeo" o incluso "espigueo". En nuestra opinin, hay casos en los que seria ms apropiado utilizar el primero de estos trmi nos (se ojean los estantes de una biblioteca) y otras en las que encaja mejor el segundo (se hojea un libro), por lo que finalmente hemos optado por usar el anglicismo de manera mayoritaria.

11.1. Origen histrico


A partir de la segunda mitad de los aos setenta y a lo largo de los ochenta, primero en Estados Unidos y posteriormente en el resto de paises desarro llados, las bibliotecas han ido abandonando el catlogo tradicional de fichas impresas como mtodo de acceso a sus colecciones y lo han sustituido por un sistema automatizado basado en el ordenador. Al principio, estos nuevos catlogos bibliotecarios automatizados recibieron diversos nombres: "online catalogs", "patron access catalogs", "computer catalogs", "automated card catalogs" u "online public access catalogs" (OPAC), siendo ste ltimo -y especialmente su acrnimo- el que ha terminado imponindose sobre los dems. Esta diversidad de denominaciones era el reflejo de las diferentes posturas conceptuales sobre lo que deba ser este nuevo tipo de catlogo. Las opiniones al respecto se dividan en dos grandes grupos [HILDRETH 1985]: a) Los que consideraban que el OPAC deba ser una rplica prctica mente exacta del clsico catlogo de fichas impresas, no yendo ms all en cuanto a los datos que deba contener, las posibilidades de acceso o la facilidad de su uso. Se pensaba que haba que conse guir que el catlogo en lnea se pareciera lo mximo posible al cat logo manual tradicional, y que otros tipos de informacin bibliogrfi ca y puntos de acceso no eran esenciales y, por contra, su implan tacin y mantenimiento resultaban excesivamente costosos en rela cin a su utilidad. b) Los que opinaban que deba ir ms all, rompiendo los lmites impuestos por el catlogo tradicional. Vean los OPAC como la cul minacin de los esfuerzos realizados a lo largo de treinta aos para automatizar las bibliotecas. Ambas posturas ponen de manifiesto un desacuerdo bsico sobre cul es el tipo de usuarios al que van dirigidos: slo para los del segundo grupo era evidente que estos nuevos catlogos deban disearse para ser utiliza dos por usuarios finales, sin intervencin de intermediarios. Esta diferencia de perspectivas tiene su origen en las diferentes fases de desarrollo histrico que a seguido la automatizacin de las tareas biblio tecarias. En opinin de FAYEN [1983] es posible distinguir tres etapas. En la primera, que comienza a principios de los sesenta, los ordenadores se utili zan simplemente como mquinas de escribir rpidas para la produccin de fichas catalogrficas y rdenes de' pedido. La siguiente fase tiene lugar entre finales de los sesenta y principios de los setenta, cuando se descubren las

11. LOS OPAC: GENERACIONES, PROBLEMAS Y SOLUCIONES


Los OPAC constituyen el resultado ms notorio y de mayor impacto de la automatizacin bibliotecaria, tanto para el personal bibliotecario como para los usuarios. Con respecto a los primeros, su desarrollo y puesta en marcha ha provocado que no slo valoren su aportacin a la mejora en la eficiencia de las tareas habituales de la biblioteca, sino que adems ha fomentado la reconsidracin de algunos de los aspectos bsicos de la profesin y del papel presente y futuro de la biblioteca. En cuanto a los usuarios, son sin lugar a dudas los principales y ms directos beneficiarios, dado el enorme aumento en las posibilidades de acceso a la informacin bibliogrfica que proporcionan. El anlisis de su evolucin histrica pone de manifiesto -como vere mos en las prximas lineas- que, en un principio, su principal foco de aten cin lo constitua el funcionamiento interno de la biblioteca y que, poco a poco, el inters principal se fue trasladando hacia los usuarios externos. Una de las razones bsicas de esta evolucin es que su nacimiento no est pro vocado por una situacin de crisis, es decir, por una fuerte presin de usua rios descontentos del catlogo tradicional de fichas. Por ejemplo, un estudio realizado por Carol WALTON et al. [1986] puso de manifiesto que la mayora .de los usuarios estaban satisfechos con el catlogo manual. Por lo tanto, la puesta en marcha de los catlogos en linea no fue ms que la respuesta lgi ca al avance tecnolgico: aplicar una tecnologa que es beneficiosa en tr minos generales. Con su implantacin no se esperaban grandes mejoras, sino que nicamente se pretenda que determin;;das tareas -las de produc cin Y mantE;niJ:niento del catlogo, concretamente- se realizaran de manera ms rpida, fcil y eficiente. HANCOCK-BEAULIEU [1989, 26]1o expresa con bastante claridad: "El catlogo en linea fue .un producto aadido que no tena su origen en un deseo de servir mejor al usuario':.

importantes ventajas de la catalogacin compartida. Es el momento en el que aparecen las primeras utilidades bibliogrficas, tales como OCLC, que apro vechan las posibilidades que ofreca el formato MARC, recientemente apa recido. En la tercera y ltima de estas etapas, que correspondera a la segun da mitad de los setenta, los bibliotecarios se dan cuenta de que los ordena dores podian utilizarse para automatizar las tareas bibliotecarias ms rutinarias y tediosas: adquisiciones, circulacin y control de publicaciones peridicas. Esta evolucin histrica pone de manifiesto que todos los desarrollos incorporados iban dirigidos principalmente a la mejora del trabajo interno del personal bibliotecario, es decir, haba ms inters por pereccionar el control de los fondos que por facilitar el acceso a ellos. En este sentido, aunque la automatizacin del prstamo supona una mejora en el servicio dado a los usuarios, en ningn momento se plante la eventualidad de utilizar la auto matizacin para proporcionar a los usuarios unas posibilidades ms amplias de acceso a las colecciones bibliotecarias por si mismos, sin ayudacleTn"ter mediarios. Estas circunstancias son las que determinan las caractersticas de los primeros OPAC, que aparecen a partir de finales de los setenta y princi pios de los ochenta en Estados Unidos y algo despus en los principales pai ses europeos.

de partida para la puesta en marcha del catlogo en linea. Este origen, basa do en la catalogacin cooperativa, tuvo una enorme influencia en las tcni cas de bsqueda y en el interaz de esta primera generacin, ya que repro ducan la forma en que los catalogadores buscaban las obras: mediante pala bras o frases concretascorrespondientes, como mnimo, al comienzo de los nombres de autores, titulo o encabezamientos de materia, es decir, un pro cedimiento exactamente igual al que se sigue cuando se busca en un cat logo impreso de autor, titulo o materias. Por tanto, sus tcnicas de bsque da de informacin seguan los principios de _la precoordinacin, permitiendo la recuperacin de cada campo tal y como apareca en el registro bibliogrfi co, estructurado de acuerdo con el formato MARC [MITEV y HILDRETH 1989]. Evidentemente, este sistema de equiparacin exacta de frases (exact match) resultaba satisfactorio nicamente si tal equiparacin llegaba a pro ducirse, para lo que era necesario que previamente se supiera con precisin qu se buscaba y en qu orden deban utilizarse los trminos de bsqueda. Por el contrario, si las bsquedas no eran muy concretas y no se tenia un conocimiento exacto de los trminos que se deban utilizar, los resultados que se obtenan eran poco halageos. Por otro lado, aunque el sistema per mita ver las frases o trminos ms cercanos alfabticamente a los emplea dos en la bsqueda, facilitando as la exploracin de los ndices sobre esa base alfabtica, este browsing alfabtico era muy limitado y lineal, prctica mente igual al ojeo de las fichas ordenadas alfabticamente en un catlogo tradicional. Este marcado sesgo hacia la mejora del trabajo interno de los bibliote carios determina, por tanto, cules son los principales defectos de los OPAC de primera generacin: - Empleaban la terminologa especifica de la catalogacin (los nom bres de los campos catalogrficos, por ejemplo), por lo que eran dif ciles de entender por los usuarios. - No ofrecan a los usuarios mensajes de ayuda o explicaciones sobre el uso del catlogo. -Su formato de visualizacin era nico y dificil de comprender. -La calidad, legibilidad y esttica de sus pantallas era muy deficiente. - Slo disponan de un modo de interaccin entre usuario y sistema, no distinguiendo entre usuarios expertos y novatos. - Escasez de puntos de acceso, en especial para las bsquedas por materias, ya que no era posible acceder a cualquier palabra del titulo o encabezamiento de materia que no estuviera al principio de la frase.

11.2. Generaciones de OPAC


Para estudiar su evolu.cin histrica, y ante la inexistencia de un modelo te rico utilizable como guia, vamos a seguir las ya clsicas tres generaciones que Charles Hildreth [1984] defini con el propsito de servir de marco de tra bajo para poder hacer un anlisis critico de los diferentes sistemas que iban apareciendo.

11. 2. 1. Primera generacin


Los primeros sistemas automatizados de gestin bibliotecaria utilizados en Estados Unidos o Gran Bretaa solan tener dos componentes bsicos: el de catalogacin y el de prstamo. Normalmente este ltimo era de carcter local, soportado por un miniordenador, en tanto que la catalogacin se lleva ba a cabo de manera compartida, mediante la participacin en redes como OCLC, RLIN (Research Librarles lnformation Network), WLN (Washington Library Network) o SWALCAP (South West Automated Library Cataloguing Project). Como resultado de su pertenencia a estos sistemas, las bibliotecas fue ron creando grandes ficheros de registros MARC, que sirvieron como punto

- Imposibilidad de modificar y mejorar una bsqueda a partir de los pri meros resultados obtenidos. - Escasas oportunidades de exploracin de la base de datos, que no fuera la simple visualizacin de las entradas por orden alfabtico. - Nulo aprovechamiento de los sistemas de clasificacin y de materias como herramientas para ayudar en la bsqueda, conectando unos temas con otros. En resumen, los OPAC de primera generacin seguan los principios bsicos de consulta de los catlogos impresos, pero eran ms difciles de usar y entender, por lo que resultaban totalmente inadecuados para ser utili zados por usuarios inexpertos, en los que en ningn momento se pens. En esta misma linea, Marcia Bates [1986b] ha comparado de manera muy gr fica esta primera generacin con los primeros automviles de principios de siglo, que eran nicamente "carruajes sin caballos", ya que imitaban a aqu llos en cuanto a la forma y a la aerodinmica. Por otro lado, esta constante comparacin con los catlogos impresos marc totalmente los primeros intentos de definir los OPAC. As, en una reu nin patrocinada por el Council on Library Resources (CLR), celebrada en Dartmouth en 1980, se presentaron diversas definiciones que KASKE y FER GUSON [1980, 13-14] resumieron de la siguiente forma: "Un OPAC debe, como mnimo, proporcionar el contenido de registro bibliogrfico, las funciones de recuperacin y los puntos de acceso simi lares a -y entendibles en trminos de- un catlogo de fichas impresas. Por tanto, el contenido del registro incluir informacin de encabeza miento, de notas y de encabezamientos secundarios. El usuario debe ser capaz de localizar en la base de datos todas las obras de un autor, todas las ediciones u otras versiones de una obra, todas las obras de una materia dada y una obra u obras con titulo concreto".

presencia en revistas como Online Review, Database u Online, principales portavoces de los profesionales y la industria de la informacin en linea. El final de esta separacin supuso la aparicin de los OPAC de segun da generacin, que son bsicamente el resultado de una asociacin entre el catlogo bibliotecario en linea y los sistemas clsicos de recuperacin de informacin bibliogrfica en linea como Dialog, Orbit, BRS, etc. Los sistemas comerciales de bases de datos en linea utilizaban el mtodo de bsqueda de las palabras clave, esto es, la postcoordinacin. Sus registros contenan abundante texto, en especial sus abstracts, por lo que no se poda emplear el mtodo de acceso de la frase exacta utilizado en los pri meros OPAC. La bsqueda por palabras clave supona un gran aumento en el nmero de puntos de acceso -cada palabra no vaca del registro era acce sible-, permita un mejor aprovechamiento de las posibilidades que propor cionaba el ordenador y resultaba mucho ms fiexible de usar. Estas tcnicas, incorporadas a los OPAC de segunda generacin, ampliaron enormemente sus posibilidades: permitan el empleo de los ope radores booleanos, imprescindibles para la combinacin de las palabras clave; los de adyacencia y proximidad; la restriccin de la bsqueda a los campos deseados; limitarla a fechas, tipos de publicaciones o idiomas con cretos; todo tipo de truncamientos; proporcionaban ayuda en linea al usua rio; los registros recuperados podan visualizarse en diversos formatos, etc. No obstante, hay varias caractersticas bsicas que diferencian clara mente a los OPAC de los IRS, que deben ser tenidas en cuenta [Hildreth 1989a; O'Brien 1990; Rice 1987]: -Los OPAC van dirigidos a usuarios sin experiencia ni formacin pre via, esto es, a usuarios finales no a intermediarios. - El pblico al que se dirigen es muy diverso, en tanto que el de los 1 RS est muy bien definido. - Las bsquedas suelen ser de naturaleza bastante informal, mientras que en los IRS son formales y bien planeadas. -El coste monetario de las bsquedas no es un factor a considerar, al contrario que en los IRS. -Sus registros no tienen abstract, su indizacin es escasa y el vocabu lario utilizado a menudo no es representativo de la terminologa actual. - Su base de datos no est dedicada a temas especificas, sino que recoge toda la coleccin de la biblioteca, por lo que cubre muy diver sas disciplinas. - La base de datos de los OPAC est compuesta bsicamente de monografas, al contrario que las de los IRS que se nutren funda mentalmente de artculos de revista.

11.2.2. Segunda generacin


Durante los primeros aos de desarrollo de los OPAC se podan dis tinguir claramente dos movimientos online que funcionaban separadamente: el mundo de los sistemas clsicos de recuperacin de informacin (IRS) y el e los catlogos bibliotecarios en linea. A esta conclusin llegaba Hildreth [1985] tras hacer un estudio de las revistas donde se publicaban articulas sobre los OPAC: aproximadamente el noventa por ciento de los trabajos apa recan en revistas de biblioteconomia tradicionales, siendo muy escasa su

Todas las mejoras incorporadas a los OPAC de segunda generacin se pueden agrupar en dos grandes conjuntos: las relacionadas con las tc nicas de recuperacin y las vinculadas al interfaz de usuario. En el primer caso, la combinacin del mtodo de bsqueda por frases precoordinadas -utilizado en los primeros OPAC- con el mtodo booleano de bsqueda por palabras clave por los diversos campos del registro bibliogrfico aumentaba considerablemente el nmero de puntos de acceso, permitiendo paliar la pobreza de la indizacin por materias y la ausencia de texto, adems de suponer una respuesta al problema de que los usuarios no sean expertos en el uso de los complejos sistemas de indizacin precoordinados. Hay casos curiosos como el de nuestra Biblioteca Nacional, a medio camino entre la pri mera y la segunda generacin, cuyo OPAC permite buscar por palabras clave pero no por frases, ya que si se introduce una bsqueda con ms de un trmino lleva a cabo una bsqueda por palabras clave con el operador "Y" impllcito [MOYA y MOSCOSO 1994]. En cuanto al dilogo hombre-mquina, ya se era consciente de que los OPAC iban dirigidos bsicamente a usuarios no experimentados, por lo que comienzan a aparecer los interfaces de tipo men, con todo tipo de explica ciones, sugerencias y mensajes aclarativos. De hecho, su uso era mucho ms fcil que el de los sistemas comerciales de bases de datos, ya que -como hemos sealado con anterioridad- stos emplean lenguajes de inte rrogacin a base de rdenes, con una sintaxis bastante compleja, slo aptos para ser utilizados por intermediarios profesionales.

conocimiento acerca del mtodo para presentar en pantalla los registros cuando se han recuperado ms de uno; 9) uso infrecuente, lo que requiere volver a aprender el sistema; 1O) no perdonan los errores tipogrficos, faltas de ortografa, etc.; 11) los usuarios no entienden la diferencia entre los diver sos ficheros, ndices o campos, o entre buscar por lenguaje controlado o por texto libre; 12) problemas respecto a las abreviaturas y las iniciales; 13) utili zacin en la bsqueda de una primera palabra diferente a la del sistema en los sistemas de bsqueda por frases; 14) problemas con los espaciados y las palabras con guin; 15) problemas con el propio sistema, tales como recor dar los nombres de las rdenes, los procedimientos de bsqueda o los mto dos para mostrar los registros; 16) ignorancia respecto al mbito o cobertura del catlogo, por ejemplo, si contiene o no articulas de revista; 17) descono cimiento de las prestaciones que ofrece el sistema y que podran ayudar en la bsqueda; 18) dificultad para entender los cdigos y abreviaturas emplea das en las pantallas; 19) pantallas excesivamente breves e incompletas; 20) no se entienden las pantallas y mensajes de ayuda, incluyendo las referen cias cruzadas; y 21) problemas con la lgica booleana. Esta lista tiene el acierto de la exhaustividad, ya que identifica prcti camente todos los problemas que se pueden producir cuando se utiliza un OPAC, pero carece de sistematizacin, por lo que para un mejor entendi miento y anlisis de las deficiencias de los OPAC de segunda generacin es necesario que las agrupemos en dos conjuntos: las que estn relacionadas con los mtodos de bsqueda y recuperacin de informacin y las asociadas al interfaz de usuario. 11.2.3.1. Los mtodos de bsqueda y recuperacin

11.2.3. Insuficiencias de la segunda generacin


Los OPAC de segunda generacin, a la que pertenecen la prctica totalidad de los instalados actualmente, suponen un importante avance respecto a los primeros, pero todava adolecen de importantes deficiencias que, como seala HILDRETH [1988], les impide ser sistemas fciles de utilizar y efica ces para una gran proporcin de usuarios ocasionales e inexpertos. A este respecto, Martha YEE [1991] ha llevado a cabo un exhaustivo examen de la bibliografa sobre la materia, tras el que resume en un total de veintiuno los problemas de los usuarios con los OPAC actuales: 1) dificultad para encon trar los trminos de materia; 2) dificultad para incrementar los resultados con seguidos; 3) excesiva especificacin, esto es, se introducen demasiados tr minos en la bsqueda; 4) se hace bsqueda por palabras clave cuando era ms adecuado llevarla a cabo por frases; 5) fallo al entender cul es la causa del error; 6) dificultad para reducir los resultados; 7) uso de palabras no sig nificativas, es decir, de las incluidas en el antidiccionario; 8) dificultad para leer pantallas grandes, incluyendo los problemas ocasionados por la falta de Los diseadores de estos OPAC creian haber resuelto el problema con la incorporacin de las tcnicas de bsqueda por palabras clave y los operado res booleanos. Sin embargo, estas tcnicas estn muy bien adaptadas a las bases de datos especializadas, que cuentan con resmenes y una indizacin exhaustiva y en profundidad, y que son utilizadas por intermediarios profe sionales o por usuarios experimentados y asiduos en su uso que saben esquivar sus deficiencias; pero no tanto para los OPAC, es decir, para gran des bases de datos de carcter enciclopdico, cuyos principales usuarios carecen de experiencia y acceden a ellos de manera directa, no a travs de intermediarios profesionales [MISCHO y LEE 1987]. La precoordinacin y la postcoordinacin constituyen los dos mtodos fundamentales y complementarios para interrogar estos OPAC, pero esta complementariedad puede convertirse en una fuente de problemas para el usuario inexperto que no comprende las ventajas e inconvenientes respecti-

vos. El sistema parte de la suposicin de que el usuario comprende cada mtodo de interrogacin y adapta su uso a sus necesidades: por ejemplo, una bsqueda por frases es apropiada para buscar una obra de la que se conoce el titulo exacto; o una por palabras clave en todos los campos del registro es muy til si no sabemos el titulo exacto o queremos buscar por una materia determinada. Sin embargo, muchos sistemas no muestran al usuario las distintas posibilidades que ofrece el sistema para que elija la ms ade cuada a sus necesidades [MITEV y Hildreth 1989]. Por otro lado, este mtodo tambin presupone que el usuario sabe lo que quiere y puede describirlo con el vocabulario empleado por el catlogo, y que tambin puede determinar con precisin el modo en que sus trminos se unen segn su proximidad y\o segn su relacin lgica booleana. Slo si todas estas condiciones se cumplen el mecanismo de equiparacin exacta en que se basan estos sistemas funciona perfectamente, en caso contrario, empiezan a producirse problemas. Este sistema supone en la prctica dividir el catlogo en dos: los registros que responden de manera exacta a los cri terios del emparejamiento y los que no responden, sin que haya posibilidad de emparejamientos parciales o aproximados (partial match). Marcia Bates [1986b] critica duramente este mtodo, predominante tanto en los OPAC como en los servicios comerciales de bases de datos, que necesita un empa rejamiento perfecto con un trmino nico y perfecto. Cuando la necesidad de informacin de un usuario es poco precisa, estos OPAC no ayudan al usuario a transformar su peticin vaga de infor macin en una descripcin explcita que pueda comprender el sistema, ni tampoco ayudan a avanzar de un elemento conocido a otros prximos o rela cionados. Estos catlogos parten de un supuesto muy poco realista: que los usuarios dominan el lenguaje y la estructura de los ficheros y que compren den las tcnicas de bsqueda de informacin. Sin embargo, es evidente que para ellos resulta ms fcil reconocer o descubrir algo que les puede intere sar que hacer descripciones formales de sus necesidades. En este sentido, autores como Charles Hildreth [1989a] plantean la necesidad de favorecer los procesos de exploracin o navegacin, sin embargo, las formas de browsing disponibles en los OPAC de segunda generacin no permiten navegar ms que en listas alfabticas de una manera lineal y rgida, sin que sea posi ble saltar de un concepto a otro para poder as descubrir otras zonas aso ciadas dentro de la base de datos.

de dos opciones: un mtodo de lenguaje de rdenes clsico dirigido a usua rios experimentados y un mtodo de mens para los inexpertos [Henry 1991]. Esto supone, en la prctica, dividir a los usuarios en dos categoras: por un lado, los usuarios expertos, que al utilizar el lenguaje de rdenes consiguen explotar satisfactoriamente las posibilidades del catlogo; por otro, los usua rios inexpertos, poco habituales, ocasionales, que emplean el sencillo mto do de los mens, lo que como contrapartida lleva consigo una importante prdida de eficacia. Sin embargo, como seala Nathalie MITEV [1986], hay muchos usuarios que no pertenecen a ninguna de estas dos categoras. Ade ms, este modelo lleva implcita la suposicin de que los usuarios asiduos terminarn por aprender el lenguaje de rdenes, sacando asi el mximo ren dimiento del sistema, olvidndose de que es muy posible que el paso de un mtodo a otro no se produzca, lo que implica el sacrificio de hecho de la posi bilidad de aprendizaje progresivo de un gran nmero de usuarios [ARRET 1985]. Por otro lado, los interfaces son excesivamente rgidos, ya que no per donan los errores ortogrficos o de tecleo -s se busca por palabras clave o con el orden de las palabras -s se busca por frases-. Adems, como slo utilizan mecanismos de equiparacin exacta, slo se recuperan aquellos documentos que correspondan de manera exacta a los trminos utilizados en la bsqueda. Si el sistema no localiza el trmino introducido por el usuario, responder simplemente que no se ha encontrado, sin ningn otro tipo de explicacin, por lo que el usuario no sabe exactamente la razn del fracaso de la bsqueda.

11.2.4. Tercera generacin


Esta generacin, que surge con el objetivo de intentar subsanar las deficien cias observadas en los OPAC actuales, se encuentra en estos momentos en fase de desarrollo, por lo que sus prestaciones no estn disponibles todava en ningn OPAC operativo -salvo de manera parcial-, slo en algunos expe rimentales. Para llevar a cabo un anlisis de las mejoras ms significativas incor poradas a los OPAC de tercera generacin -tanto operativos como experi mentales-, vamos a utilizar como punto de partida el esquema bsico esta blecido por Christine BORGMAN [1986b]. para quien los problemas que se encuentran los usuarios cuando utilizan sistemas de recuperacin de infor macin pueden clasificarse en dos grandes categoras: mecnicos y con ceptuales. Los primeros hacen referencia a cuestiones como errores tipogrficos, con las rdenes, con los trminos, salirse del sistema, no recuperaciones por

11.2.3.2. Los interfaces de usuario En trminos generales, los interfaces siguen el modelo de los lenguajes de rdenes con diversas modificaciones. La mayora de los sistemas disponen

fallos en los nombres de los autores, etc. Una de sus caractersticas ms sig nificativas es que no se producen de manera aislada, sino que tienden a pre sentarse en cadena: una vez que se comete un error, la siguiente operacin es, muy probablemente, otro error. Por ejemplo, en el sistema Scorpio de la Biblioteca del Congreso, dado un error, la probabilidad de que la sigutente orden fuera un error era de un 60 por ciento. Por otro lado, los mismos datos indican que los usuarios tienden a salir del sistema inmediatamente despus de recibir un mensaje de error (un 9 por ciento en el sistema Scorpio) [RICE y BORGMAN 1983]. Este tipo de errores son ms frecuentes en los OPAC que en otros sistemas de recuperacin de informacin, ya que son utilizados habitualmente por usuarios no experimentados, al contrario que los sistemas clsicos de recuperacin de informacin que son usados por intermediarios, es decir, usuarios muy frecuentes. Su tasa de uso es lo suficientemente baja como para que la mayora de los usuarios de OPAC sigan siendo novatos permanentes [BORGMAN 1986b]. En cuanto a los problemas conceptuales, pueden definirse como aqu llos causados por la falta de entendimiento del proceso de bsqueda. Pue den incluir el uso incorrecto de la lgica booleana o del truncamiento, estruc tura de trminos incorrecta (orden en los nombres propios, uso de artculos iniciales), fallo en la modificacin de resultados de bsqueda no satisfacto rios, dificultad para valorar la relevancia, etc. Como consecuencia de estos problemas, los usuarios suelen hacer bsquedas muy simples, utilizando slo las caractersticas bsicas del sistema y desechando sus prestaciones ms sofisticadas. Sin duda, el origen de la mayora de los problemas de ese tipo es la lgica booleana [HILDRETH 1983, 1987]. En este sentido, hay abundante investigacin psicolgica en este campo que pone de manifiesto que la lgica booleana es algo inherentemente complejo, no algo de sentido comn para la mayora de las personas [BORGMAN 1984].

ortogrfica automticas. A continuacin, vamos a describir cmo se han im plantado en algunos de los OPAC ms significativos. El OPAC pionero en poner en prctica estas mejoras fue el sistema CITE de la National Library of Medicine [DOSZKOCS 1983, 1986]. Poco des pus, apareci el catlogo experimental OKAPI (Online Keyword Access to Public lnformation), sin duda el proyecto ms ambicioso de OPAC de terce ra generacin, por lo que le vamos a dedicar bastante atencin. Okapi es un prototipo que comienza a desarrollarse en 1983 en la Polytechnic of Central London (en la actualidad University of Westminster) con una ayuda financiera de la British Library y que a partir de 1988 se tras lada a la City University londinense. Su propsito era probar la aplicabilidad, en el contexto del catlogo bibliotecario en linea, de los hallazgos proceden tes de la investigacin en sistemas informticos interactivos, psicologa cog nitiva y recuperacin de informacin. La primera de sus versiones, denominada Okapi'84, inclua dos tipos de bsqueda: por obra especifica y por materias. El primer tipo se denomi naba "intelligent search sequencing", ya que consista en seguir de manera automtica varios rboles de bsqueda combinando acceso por frases y por palabras clave. El sistema iba desde lo ms preciso a lo ms vago, de acuer do con el xito obtenido en una rama del rbol (por ejemplo, si la bsqueda por frases no era satisfactoria se hacia una por palabras clave). Es decir, el sistema va ms all de un simple emparejamiento inicial entre lo introducido por el usuario y los ndices de la base de datos, ya que hace varios intentos de emparejamiento empleando toda la informacin disponible del sistema y del usuario, recuperando todas las referencias posibles sin que el usuario tenga que reformular su bsqueda. Dependiendo del resultado, se dan al usuario registros completos -si son pocos- o abreviados, o ndices para hacer browsing [MITEV y WALKER 1985]. En la bsqueda por materias, los trminos de la demanda del usuario se buscaban en un ndice que contena palabras procedentes del titulo y encabezamientos de materia, adems de nombres corporativos. En primer lugar se realizaba una bsqueda booleana con el operador "Y" implcito. Si ste fallaba, se les asignaba un peso a las palabras de acuerdo con su fre cuencia inversa (las palabras poco comunes tenan ms valor que las comu nes), y el sistema buscaba los registros que contenan al menos alguna de los trminos de la bsqueda. A los registros se les asignaba el valor corres pondiente a la suma de los valores de los trminos por los que haban sido indizados, de manera que el resultado de la bsqueda se ordenaba de acuer do con su valor [MITEV et al. 1985]. A partir de la siguiente versin, Okapi'86, la labor investigadora se cen tr exclusivamente en la bsqueda por materias, considerando que es un

11.2.4.1. Mejoras para los problemas mecnicos Su objetivo bsico es mejorar el proceso de emparejamiento de los trminos de bsqueda, sin que para ello los usuarios tengan que aprender los meca nismos de recuperacin. El peso de la interaccin de la bsqueda cambia del usuario al sistema, que lo asume. Las ayudas que se proporcionan a los usuarios son bsicamente de dos tipos: de recuperacin y lingsticas. Las primeras hacen referencia a la incorporacin de los conocimientos proce dentes de la investigacin y experimentacin en recuperacin de informacin para mejorar los sistemas de recuperacin booleanos tradicionales: tcnicas de equiparacin parcial (partial match), ponderacin, ranking, etc. Entre las segundas se incluyen prestaciones como reduccin a la raz y correccin

rea de investigacin mucho ms rica e importante. De hecho, Okapi'86 es un sistema slo por materias, aunque utiliza el mismo hardware que la ver sin de 1984, y la estructura de los ficheros, la mayora de la codificacin y la apariencia de las pantallas son muy similares. Todas las bsquedas son procesadas sobre una base combinatoria de tipo best-match, de manera que una bsqueda puede recuperar obras que han sido indizadas slo por alguno de los trminos empleados en la bsque da. A cada uno de estos trminos se le asigna un peso, determinado por su frecuencia relativa en el fichero en el que se est buscando. Adems, hay reglas para decidir el umbral de relevancia, es decir, donde se hace el corte entre registros recuperados y no recuperados, para intentar conseguir un adecuado equilibrio entre precisin y exhaustividad [WALKER 1989]. Por otro lado, se incorporaron tres nuevos dispositivos con el objetivo de mejorar la recuperacin automtica o semiautomtica [WALKER y JONES 1987]: a) reduccin automtica de los trminos de bsqueda a su raiz, es decir, truncamiento implcito automtico b) correccin ortogrfica semiautomtica e) referencias cruzadas automticas La reduccin a la ralz (stemming) es un procedimiento que se viene utilizando desde hace bastante tiempo, partiendo de la base de que trminos que son morfolgicamente similares son tambin similares semnticamente. Lo primero que hay plantearse es si resulta ms conveniente una reduccin dbil o una fuerte, o ambas a la vez. Una reduccin dbil es aqulla que puede hacerse de manera que en la gran mayora de los casos no haya una diferencia apreciable entre las palabras reducidas. Por el contrario, una reduccin fuerte tiene el peligro de que puede alterar de manera radical el sentido de la bsqueda, en especial en el contexto de las ciencias sociales y humanas, donde a menudo las palabras no estn relacionadas morfolgica y etimolgicamente. Adems, la reduccin fuerte puede producir demasiado ruido documental. En un principio se pens que el sistema slo tuviera reduccin dbil, pero se comprob que produca problemas de bsquedas que recuperaban muy pocos registros, de manera que el usuario tenia que volver atrs o pedir ayuda para ampliar su bsqueda.Por tanto, finalmente se decidi emplear tanto la fuerte como la dbil, lo que supona un mayor esfuerzo computacio nal, pero se ganaba en simplicidad de uso del sistema. No obstante, se intro duca un elemento corrector que consista en que el sistema siempre se ase-

guraba de que los registros recuperados bajo reduccin dbil estuvieran ms cerca de lo alto de la lista -se les adjudicaba un peso mayor- que los recu perados con reduccin fuerte. Esto era necesario para garantizar que: a) una reduccin fuerte no contribuya al valor de un registro indizado bajo la corres pondiente reduccin dbil, y b) una reduccin fuerte, si es distinta de la correspondiente dbil, tenga un peso ms bajo que la reduccin dbil. La reduccin dbil era muy simple, se limitaba a eliminar los plurales regulares y posesivos, y los sufijos "ing" y "ed". Adems, habla una normalizacin orto grfica asociada a la reduccin dbil, cuyo objetivo era hacer frente a las dife rencias entre la ortografa americana y la britnica. Okapi'86 tambin incluye tcnicas automticas de correccin ortogr fica. Su objetivo es hacer frente al problema de las bsquedas con palabras que el sistema no puede encontrar. En estos casos, el usuario se encuentra con que el sistema le responde con lacnicas expresiones como "no se encuentra" o "no registros", sin que pueda saber la causa del fracaso en la bsqueda. Es decir, los usuarios no saben sl se han equivocado al teclear la palabra, si han cometido un error ortogrfico o si realmente no hay nada que tenga que ver con la bsqueda que estn llevando a cabo. No hay que menospreciar la importancia de los errores tipogrficos y ortogrficos ya que, de acuerdo con los estudios llevados a cabo por PETERS [1989], un 20 por ciento de las bsquedas que producen cero documentos tiene su origen en ellos. Para resolver este problema es necesaria la interaccin con el usua rio. Es decir, el trmino empleado puede ser eliminado o sustituido, o la bs queda puede ser abandonada sobre la base de que ese trmino es correcto y esencial para la bsqueda, pero, en cualquier caso, la decisin tiene que recaer sobre el usuario. Para ello hay que proporcionarle la informacin ade cuada, por ejemplo, sugirindole una correccin de la palabra mal tecleada o escrita incorrectamente. Asi, por ejemplo, si el usuario ha escrito por error "bivlioteca", el sistema le puede contestar dicindole que no encuentra ese trmino, pero que teclee en su lugar "biblioteca". En casos como este, Okapi'86 pone en marcha de manera automtica un procedimiento de correc cin antes de pedir al usuario que tome una decisin al respecto. Los resul tados de las pruebas a que fue sometido pusieron de manifiesto que este procedimiento puede sugerir una sustitucin aproximadamente en la mitad de los errores de ese tipo que recibe, y la sustitucin propuesta es correcta en la mayora de los casos [WALKER y JONES 1987]. La mayora de estas tcnicas, cuyo objetivo es ayudar a superar los problemas de carcter mecnico de la recuperacin de informacin, ya esta ban disponibles y se utilizaban habitualmente por los intermed'1arios prole-

sionales en los servicios de bases de datos en linea. La diferencia estriba en que cuando se incorporan a los OPAC, dirigidos a usuarios finales, el peso de la interaccin no puede recaer sobre stos, sino sobre el sistema [HAN COCK-BEAULIEU y MITEV 1989].

11.2.4.2. Mejoras para los problemas conceptuales


Partiendo de la clasificacin de BORGMAN, Nathalie MITEV [1989] ha clasi ficado los problemas conceptuales en tres tipos: a) Dificultades para expresar las bsquedas y para combinar los con ceptos mediante operadores booleanos. b) Dificultades para ajustar los trminos empleados por el usuario con el lenguaje de la base de datos. e) Los problemas ligados a la falta de conocimiento del usuario de la que surge su necesidad de informacin, es decir, la dificultad de describir lo que no se sabe. La solucin para los dos primeros problemas esta en la ayuda que presta un intermediario, que es experto en formular bsquedas, en el voca bulario del sistema y en agrupar y combinar conceptos. Sin embargo, en los OPAC no estn disponibles, por lo que hay que buscar soluciones alternativas. Una de ellas consiste en pedir la colaboracin del usuario, al que se le solicita que introduzca los trminos agrupados conceptualmente, y a partir de ah el sistema lleva a cabo las correspondientes combinaciones booleanas. Esta tcnica es utilizada, por ejemplo, por el sistema Plexus, que es un pro totipo desarrollado en la Universidad de Londres [VICKERY et al. 1986]. En una lnea rnuy similar se encuentran los mecanismos de relevance feedbaclr, que consisten en reforrnular la bsqueda a partir de las valoracio nes del usuario acerca de la relevancia de los registros recuperados. Por ejemplo, Okapi muestra al usuario un registro y le pregunta si coincide con lo que necesita. Si la respuesta es afirmativa, utiliza varios mtodos automati ces para reformular o reprocesar la bsqueda, intentando encontrar registros muy relacionados con el calificado como relevante. Por ejemplo, los clasifi cados con el mismo nmero de DCC o LCC, o los que contienen los mismos encabezamientos de materia o palabras del titulo. Por otro lado, se eliminan los registros que tienen terminologa o nmero de clasificacin comunes a los registros juzgados como no relevantes [WALKER 1987].EI primer OPAC ope rativo que implant un mecanismo de re/evance feedbaclr fue el ya citado CITE de la NLM. En primer lugar, el sistema somete a los trminos de la

demanda del usuario a mecanismos de reduccin a la raz, de correccin ortografica y de ponderacin de acuerdo con su frecuencia. Los trminos resultantes junto con encabezamientos de materia MeSH se ordenan y se presentan al usuario para que confirme o altere ese orden. Posteriormente, los registros recuperados se muestran al usuario para que indique cuales son relevantes o no a su bsqueda, informacin que utilizara el sistema para dar una nueva lista ordenada de encabezamientos, a la que el usuario puede aadir otros trminos [DOSZKOCS 1983, 1986]. Un sistema muy similar es el denominado SPRILIB, del Scott Polar Research lnstitute de Cambridge, en el que el usuario puede hacer browsing a travs de un ndice de las palabras de los ttulos y ver los documentos indizados con esas palabras. Para cada uno de los registros mostrados se le pide al usuario que valore su relevancia. Para reformular la bsqueda el usuario ve los trminos de los registros cali ficados como relevantes -procedentes de sus ttulos y de sus nmeros de CDU- y decide si los incluye o no, o incluso si aade alguno mas [PORTER y GALPIN 1988]. La diferencia basica entre CITE y SPRILIB con relacin a Okapi, es que en ste la participacin del usuario es mucho menor. Todos estos mecanismos reproducen el procedimiento tradicional que consista en que el intermediario preguntaba al usuario su opinin sobre algu nos registros recuperados y, a partir de ahi, usaba los encabezamientos de materia o las palabras del titulo para encontrar mas registros relevantes. Para resolver el tercer problema, fruto de esa situacin denominada "estado anmalo del conocimiento" [BELKIN et al. 1982], es preciso prestar al usuario ayudas de caracter semantico y contextua! para que pueda expre sar su necesidad y explorar y descubrir nueva informacin. Una de las primeras propuestas en esta linea fue la sugerida por Pau line Atherton [1978], que consideraba que aadir los ndices de la sobrecu bierta del libro, el ndice general o los encabezamientos de los capitulas enri quecera notablemente la descripcin !emtica de las monografas. Son numerosos los trabajos de investigacin que han seguido esta linea, de los que el mas reciente es el proyecto RIDDLE (Rapid lnformation Display and Dissemination in a Library Environment), financiado por el Programa de Bibliotecas de la Comisin de las Comunidades Europeas y desarrollado entre 1993 y 1994 [HARRISON et al. 1995]. Para que el usuario pueda hacer una buena bsqueda es necesario ayudarlo a que se site contextualmente, esto es, que sea consciente de los trminos mas especificas, mas genricos, sinnimos o relacionados con el que esta utilizando. Para ello hay dos procedimientos basicos: proporcionar control de autoridades en lnea o utilizar los esquemas de clasificacin. En los catalogas tradicionales el control de autoridades se llevaba a cabo mediante las referencias cruzadas, que servan ademas para relacionar

trminos de significado similar pero que no estaban cercanos alfabticamen te. Parece lgico, por tanto, intentar reproducir este mecanismo en los cat logos en linea. Uno de los primeros proyectos que lo llev a cabo fue el finan ciado por el CLR y dirigido por Karen Markey con la lista de encabezamien tos de la Biblioteca del Congreso, incluyendo las referencias "vase", "vase desde" y "vase adems" [Markey 1988]. Un proyecto muy similar es el de la British Library en la Middlesex Polytechnic londinense, que utiliza PRECIS como base [CONGREVE 1986]. Tambin Okapi -como ya mencionamos con anterioridad- incorpor a partir de 1986 un dispositivo de referencias cruzadas automticas, utilizando para ello el siguiente procedimiento. En primer lugar, se procedi a estudiar varios miles de bsquedas, tras lo cual se construy una lista de trminos que eran tratados como sinnimos. Se pretenda hacer frente a una serie de sinnimos que no podan ser detectados mediante los mecanismos de reduc cin a la raz: plurales irregulares, variaciones morfolgicas demasiado dependientes del contexto para ser tratadas con algoritmos, palabras con ortografas alternativas y cuasi sinnimos. La lista tambin inclua unas pocas frases que no tenan un equivalente y cuyas palabras componentes no guardan relacin con el sentido de la frase completa (por ejemplo, la expre sin "soap opera", que se utiliza para denominar a los culebrones televisivos no tiene relacin ninguna con el significado de las dos palabras que la com ponen). Se trata, por tanto, de frases que se comportan -y son tratadas exactamente como palabras [WALKER 1989]. La otra posibilidad sugerida es el uso de los esquemas clasificatorios. Uno de los sistemas pineros fue un proyecto de la empresa Bell, que cre un prototipo que permita el browsing mediante mens a travs del esquema jerrquico de la DDC [GELLER y LESK 1983]. Tambin Okapi, en su versin denominada Okapi'87 proporcionaba al usuario la posibilidad de moverse desde el registro completo seleccionado en la pantalla hasta una secuencia de registros en forma breve ordenados segn su nmero de DDC, es decir, con el mismo nmero o muy cercano. No obstante, el experimento ms interesante en este rea es el DDC Online Project, realizado entre 1984 y 1985 por un equipo encabezado por Karen Markey, entonces en OCLC. El equipo dise dos catlogos experi mentales conocidos como DOC (Dewey Online Catalogue) y SOC (Subject Onl1ne Catalogue). Eran muy similares en estilo general y presentacin, pero los registros de DOC estaban aumentados con texto de las tablas notas e ndice relativo de la DDC, y permita browsing jerrquico de las t blas as como bsqueda directa por materias. SOC permita a los usuarios hacer browsing de los encabezamientos de materia, buscar por palabras clave de los titulas y encabezamientos de materia, y hacer bsqueda directa por nmero de clasificacin.

Los experimentos tuvieron lugar a nivel local, estatal, nacional y uni versitario y participaron tanto usuarios externos como personal bibliotecario. Los resultados pusieron de manifiesto que los usuarios preferan SOC, de manejo ms simple, y los profesionales DOC, que ofreca ms opciones y resultaba ms complicado de uso [MARKEY y DEMEYER 1986]. Sobre la utilizacin de los esquemas clasificatorios para mejorar la recuperacin de informacin por materias volveremos ms adelante para tra tarlo con mucha mayor profundidad. Por ltimo, hay otro importante factor que puede ayudar a mejorar el control del desarrollo de la bsqueda por parte del usuario: la introduccin de los interfaces grficos de usuario (GUI), tambin denominados orientados al objeto o de manipulacin directa. Su incorporacin a los OPAC puede solu cionar uno de sus aspectos ms criticados: lo limitados y poco amigables que son sus interfaces de usuario. Como seala O'BRIEN [1994], muchos usua rios dan un paso atrs cuando se mueven de los interfaces grficos de su ordenador Macintosh o Microsoft Windows para utilizar un catlogo en linea. La historia de los interfaces grficos de usuario se remonta a los aos setenta, cuando se puso en marcha el proyecto Smalltalk en el centro de investigacin de Xerox en Palo Alto, cuyo resultado fue el sistema Star, que inclua todos esos elementos tan familiares en la actualidad: ventanas, ico nos, mens. Steve Jobs, uno de los fundadores de Apple, tuvo ocasin de conocer este sistema experimental desarrollado en Xerox y decidi que la prxima generacin de ordenadores debera contar con un interfaz de usua rio del mismo estilo que el de Xerox. Para ello contrat a muchas de las per sonas que haban intervenido en su desarrollo, incluyendo a Alan Kay, su principal responsable. Fruto de su trabajo fue la salida al mercado de los Macintosh -denominados as en honor a la variedad de manzana favorita de Jobs- en 1984 [EDWARDS 1996]. Al contrario que los interfaces conversacionales -los tradicionales de rdenes y de mens-, que se basan en considerar al ordenador como un colaborador en la tarea de resolucin de problemas (el usuario intercambia informacin con la mquina y el ordenador hace el trabajo), los interfaces grficos, basados en elementos de tipo WIMP (windows, icons, menus, poin ters), permiten a los usuarios interactuar directamente con los objetos repre sentados grficamente sobre la pantalla: el interfaz es en s mismo un mundo en el que el usuario puede actuar, y que cambia de estado en respuesta a las acciones del usuario. Como seala HENRY [1991], ambos tipos de inter faces pueden ser vistos como polos opuestos: los orientados al objeto ani man a los usuarios a controlar la comunicacin utilizando una serie de herra mientas, en tanto que los conversacionales se basan en que el ordenador es un ayudante o agente para el usuario.

El desarrollo histrico de los interfaces de los OPAC muestra una clara evolucin desde los conversacionales a los orientados al objeto. Los prime ros que se implantaron eran conversacionales, a travs de rdenes. Algo mas tarde, se intent que fueran ms amigables a travs de la utilizacin de mens, de manera que simplemente era necesario escoger el nmero o letra asignados en el men a la opcin elegida. Evidentemente, resultaba ms fcil que tener que recordar numerosas rdenes, pero tenia el problema de que a menudo el usuario tenia que moverse hacia atrs a travs de numero sos mens para poder salir. Ambos sistemas tenan el problema comn de su falta de normalizacin, es decir, las rdenes o mens eran diferentes de un sistema a otro, con lo que el usuario que utilizaba un OPAC diferente al habitual tenia que volver a aprender las rdenes o habituarse a moverse a travs de los mens. Posteriormente, los avances en informtica han permi tido a las bibliotecas sustituir las "terminales tontas" por microordenadores con capacidad para procesar sonido e imagen, lo que les permite soportar interfaces de los denominados GUI, constituidos por combinaciones de ele mentos como ventanas, mens desplegables, iconos y dispositivos de sea lizacin como el ratn [HULSER 1992]. Por otro lado, los interfaces grficos pueden ser la solucin para la anhelada normalizacin. Como adverta MATTHEWS [1987], resulta impres cindible que las pantallas de los OPAC sean relativamente similares en con tenido y presentacin, ya que as se necesita menos tiempo para (re)apren der su uso. Adems, aqulla es cada vez ms necesaria, debido a la ten dencia a que los OPAC sean no slo un sistema para acceder a los fondos de una biblioteca o conjunto de ellas, sino tambin para proporcionar acceso a todo tipo de bases de datos comerciales, tanto en linea como en CD-ROM, otros catlogos bibliotecarios, correo electrnico, etc. Es decir, se trata de que los catlogos en linea amplen su perspectiva y se conviertan en una ver dadera biblioteca en linea (en este sentido, que las pantallas de OPAC sean microordenadores y no terminales tontas permite operaciones de teledescar ga). Para este objetivo normalizador los interfaces grficos constituyen sin duda la mejor solucin, ya que el gran desarrollo y expansin de Macintosh y del Windows de Microsoft ha provocado que este tipo de interfaces se hayan universalizado, es decir, sean ampliamente conocidos por la gran mayora de los usuarios. Una cuestin todava no bien resuelta de los GUI es su uso por per sonas ciegas o con deficiencias visuales. En la actualidad hay varias iniciati vas para resolver este problema. Por un lado, se encuentra el proyecto Guib (Graphical and textual User Interfaces for Blind people) de la Comisin Euro pea; por otro, Windows 95 incluye un modelo off-screen que puede ser desa rrollado como base para representaciones no visuales de la pantalla [ED WARDS 1996].

No obstante, hay que tener en cuenta que las preferencias personales y estilo de trabajo influyen en el uso de un OPAC, adems de que hay tare as que son ms fciles de llevar a cabo mediante rdenes que en un entor no grfico, de manera que ninguna de estas posibilidades constituyen por si solas la solucin perfecta. Por tanto, una combinacin de sistema de rde nes, de mens y de interfaces grficos debera constituir el interfaz de usua rio de los OPAC, de forma que cualquier tipo de usuario, desde el novato Y ocasional al habitual y experto, se encuentren cmodos y puedan sacarle el mximo partido [HULSER 1992]. Hay algunos ejemplos interesantes de OPAC que han puesto en mar cha interfaces GUI que intentan reproducir grficamente la apariencia fsica de una biblioteca tradicional. Uno de los pioneros fue el diseado por BENEST elal. [1987] en el departamento de nformatica de la Universidad de York. En l, lo primero que se ofrece al usuario es una representacin de los ndices (materia, autor, kwic, signatura, etc.), cada uno de los cuales se sim boliza como un libro en un estante que el usuario puede seleccionar con el ratn. El ndice escogido se presenta en la pantalla como un libro abierto con dos pginas a la vez, y el usuario puede hojear estas pginas de entradas del ndice alfabticamente, con la posibilidad de saltar a una letra concreta s1 se desea. Una vez que se selecciona la entrada del ndice, el libro es locali zado fsicamente sobre un estante simulado. Los tamaos fsicos de los libros estn en relacin con el nmero de pginas, formato, etc. El usuario puede hacer browsing a travs de las obras clasificadas en el estante, Y es posible hojear las pginas, saltando de una a otra, poniendo marcas en ellas, etc. de la obra seleccionada. Un sistema similar es el desarrollado por MCALEESE Y DUNCAN [1987] en la Universidad de Aberdeen, que usa un programa de hipertexto para presentar grficamente un tesauro, por el que es posible navegar Y hacer browsing. A partir de una palabra se pueden ver sus relaciones semn ticas, leer un documento, conectar con otras palabras o documentos, etc. Ms reciente es el diseado por BEHESHTI [1992], que permite al usuario moverse entre los recursos del catlogo de la misma forma que lo hara entre los fondos de una biblioteca. Todos estos interfaces estn basados en la idea de que la presencia fsica de un libro, especialmente el diseo de su cubierta, proporciona al lec tor la impresin global de su contenido, y en la larga tradicin anglosajona de libre acceso a los estantes, de manera que la bsqueda mediante browsing de los libros en los estantes sigue siendo un mtodo muy usado y efectivo, como ha demostrado HANCOCK [1987]. En opinin de Nathalie MITEV [1989], los interfaces conversacionales constituyen un nivel intermedio entre el usuario y la tarea concreta, por lo que

le obligan a pensar en los mecanismos para pedir algo, de manera que se d1straen de la tarea misma que estn llevando a cabo. Por el contrario en los interfaces grficos el usuario interacta ms fcil y directamente con' el sis tema, sin tener que pensar en los mecanismos concretos de bsqueda. No obstante, se cuestiona si es adecuado utilizar representaciones de libros en las pantallas y si la forma tradicional de buscar en los estantes es una forma apropiada para buscar en un sistema informtico. 11.2.4.3. Ampliacin de su mbito Cuando Charles HILDRETH [1987] analizaba cules eran las posibilidades de mejora de los OPAC las resuma en tres: a) la interaccin entre usuario y Sistema, b) el contenido y estructura de la base de datos y e) aadir bases de datos complementarias. Es decir, adems de con medidas para hacer frente a los problemas de carcter conceptual y mecnico, los OPAC pueden ser mejorados con la ampliacin de los recursos informativos que ofrecen, tanto mediante el aumento de su contenido como extendiendo sus posibili dades de acceso. En palabras de Caro! MANDEL [1985], se trata de que el catlogo en linea pase de ser un simple almacn a convertirse en un super mercado bibliogrfico. Hay muy diversas formas de expandir los OPAC para proporcionar a los usuarios fcil acceso a artculos de revista, diarios, bases de datos, obras de.referencia en formato electrnico y otros tipos de informacin, superando as1 los 1Jm1tes tradiCionales de los catlogos bibliotecarios [CULKIN 1989 ' FAYEN 1989]: - proporcionar acceso a artculos de revista o a las contribuciones a obras colectivas (actas de congresos, recopilaciones, antologas, etc.) -incluir informacin relativa a la comunidad a la que sirve (ciudad, barno, campus universitario, etc.) - contener bases de datos locales creadas por la biblioteca o por enti dades relacionadas -ofrecer acceso a otras colecciones y bases de datos distintas a la de la biblioteca Una de las mayores deficiencias del catlogo bibliotecario tradicional es su imposibilidad para proporcionar acceso a los trabajos intelectuales con tenidos en obras fsicamente unitarias, es decir, a cada uno de los artculos de una revista, a _las ponencias y comunicaciones de las actas de congresos, o a las contnbuc1ones a obras colectivas como compilaciones, libros home-

naje, antologas, etc. Por eso, en cuanto se pens que los catlogos en linea podan superar los limites tradicionales de los manuales, se plante la posi bilidad de llevar a la prctica esa antigua aspiracin. A este respecto, Clifford LYNCH [1989] seala que eliminar la distincin artificial entre libros y artcu los de revista es una de las prioridades de la automatizacin bibliotecaria a lo largo de los aos 90. Esta diferenciacin, que tuvo su origen en razones de carcter econmico, ya no tiene validez. Para conseguir la inclusin de los artculos se ha recurrido a incorpo rar a los OPAC bases de datos comerciales, lo que plantea diversos proble mas: integracin de las diferentes formas de acceso por materias, las distin tas estructuras de los registros, cmo se conecta la informacin de la base de datos con la correspondiente a las existencias, localizacin y estatus, res tricciones de carcter legal respecto al uso de la base de datos, etc. Res pecto a las contribuciones se han empleado mtodos tales como incluir los ndices de contenido o los encabezamientos de los captulos. Puede ser de mucha utilidad que, adems de informacin bibliogrfi ca, una biblioteca ofrezca a sus usuarios otros tipos de informacin que les pueda interesar. Por ejemplo, una biblioteca municipal puede proporcionar informacin propia y local a travs del OPAC (actividades de la biblioteca, culturales, noticias de actualidad, etc.); o una biblioteca universitaria sumi nistrar informacin de inters para los estudiantes y dems miembros de la comunidad universitaria. Adems, es posible utilizar el OPAC como medio para facilitar servicios bibliotecarios a los usuarios (boletines de adquisicio nes, bibliografas actualizadas, etc). En esta lnea, es interesante la pro puesta de Michael BUCKLAND [1987] de combinar el OPAC con el correo electrnico para enviarle al usuario informacin de los nuevos registros rela cionados con su perfil de inters. Por ultimo, una caracterstica bsica de los OPAC "ampliados" es la de proporcionar acceso remoto a otras bases de datos, catlogos bibliotecarios y diversos recursos de informacin, ya sea a travs de Internet o de otro tipo de redes, lo que evidentemente tambin implica que a "nuestro" OPAC puede accederse desde otros sistemas. De hecho, puede afirmarse que el acceso remoto es uno de los rasgos ms significativos de los catlogos en lnea. De esta forma, como seala Thomas PETERS [1991]1as ventajas de los OPAC no son slo que proporcionan muchos ms puntos de acceso que los tres clsicos (autor, ttulo, materia) de los catlogos manuales, sino que adems aumentan los puntos de acceso "geogrficos", tanto dentro como fuera de la biblioteca. La consecuencia ms inmediata del acceso remoto es que permite un acceso distribuido, por lo que se atraen nuevos grupos de usuarios, que

podamos denominar "invisibles" [CRAWFORD 1992]. Adems, tambin implica la ruptura de la relacin tradicional entre los recursos informativos y un entorno fsico concreto (la biblioteca): ahora es el usuario el que invita al catlogo a entrar en su entorno (casa, oficina, etc.), en lugar de ser el usua rio el que entra en el entorno bibliotecario [PETERS 1991]. Por otro lado, la posibilidad de que los usuarios remotos puedan capturar y manipular los registros bibliogrficos para adaptarlos a sus necesidades especificas hace surgir nuevos problemas, en especial relativos al derecho de autor, propie dad de la informacin, pago de servicios, etc. [CRAWFORD 1987]. Un buen ejemplo de un OPAC "ampliado" es ILLINET Online Plus, de sarrollado en la Universidad de lllinois en Urbana-Champaign, que propor ciona acceso a una gran diversidad de recursos informativos tanto locales como remotos, entre los que se incluyen: los fondos de unas 800 bibliotecas del Estado de lllinois; un sistema de recuperacin que utiliza BRS/Search y que contiene bases de datos de Wilson, de ERIC y Current Contents; bases de datos de la red del Campus que recogen el Diccionario Oxford, informa cin del tiempo, noticias de actualidad y el directorio telefnico; acceso a los recursos de Internet; bases de datos locales que incluyen directorios de per sonal, listas de adquisiciones, perfiles para OSI, bibliografas temticas recien tes, etc.; acceso a bases de datos en CD-ROM; conexin entre las bases de datos locales del sistema que emplea BRS/Search con la informacin relativa a los fondos y a su signatura topogrfica [MISCHO y COLE 1992].

lectual al usuario, incluso a costa de producirle una cierta frustracin transi toria, debe ser objeto de consideracin. Bajo este segundo punto de vista, NIELSEN y BAKER [1987] nos ofre cen una serie de razones acerca de la conveniencia de establecer programas de formacin de usuarios de OPAC: -se reconoce que no existe el OPAC perfecto -muchos bibliotecarios piensan que el interfaz de usuario no se acomoda a las necesidades de los usuarios, y puede que nunca lo haga - los sistemas "amigables" no lo son tanto en la realidad, de acuerdo con la experiencia de muchos bibliotecarios de referencia que han trabajado con los usuarios para intentar dominarlos -el ritmo con el que se mejora el interfaz parece ser demasiado lento, debido a que se da ms importancia a criterios de gestin que de satisfaccin del usuario -si los programas de formacin se dedican a aspectos bsicos de la recuperacin de informacin automatizada pueden ayudar a los usuarios cuando cambian de un sistema a otro Admitida la necesidad de la formacin de usuarios en el contexto de los OPAC, debemos plantearnos ahora cmo deberan disearse los corres pondientes programas, para lo que habra que tomar dos decisiones bsicas: qu aspectos del sistema deberan ensearse a los usuarios y cul debe ser la forma en que dichos aspectos deben incluirse en la act1v1dad de aprendi zaje. O, dicho de otro modo, qu contenidos y a travs de qu mtodos. As, en primer lugar, habra que decidir si es ms conveniente una formacin estructurada o una informal. Y, en segundo, si es mejor ensear las cuestio nes bsicas de los OPAC como sistemas de recuperacin de informacin o, por el contrario, las cuestiones proced mentales especificas de cada sistema concreto. El aprendizaje puede ocurrir tanto a travs de un programa sistemti co (mediante talleres de trabajo, cursos, conferencias, etc.) como de mane ra casual (a travs de los prompts y de las pantallas y mensajes de ayuda proporcionados por el sistema). La primera posibilidad proporciona una infor macin bastante completa y adecuada por parte de un especialista en la materia. Sin embargo, tiene varios importantes inconvenientes: supone un gran esfuerzo por parte de la biblioteca, slo afecta a un mnimo porcentaje de los usuarios (sobre todo, si existe la posibilidad de acceder a l de mane ra remota) y hay usuarios que prefieren aprender por si mismos, sin ningn tipo de direccin o control. Por su parte, el aprendizaje casual tiene la virtud

11.3. Formacin de usuarios


Para solucionar los woblemas de los OPAC hay dos opciones bsicas: cam biar el sistema para adaptarlo a los usuarios, o educar a stos para que le saquen el mximo partido. Aunque, en principio, ambas opciones podan ser igualmente vlidas, en la prctica se ha elegido mayoritariamente la primera posibilidad [PETERS 1991]. Un ejemplo claro lo tenemos en las conclusiones del estudio del CLR, al afirmar que la formacin de usuarios est fuera de lugar, ya que el usuario no puede ser rediseado para adaptarse a las nece sidades del sistema [MATTHEWS et al. 1983]. Todas las mejoras que hemos analizado hasta este momento se encuadraban dentro de la primera opcin -cambiar el diseo del sistema-, por lo que ahora vamos a dedicar nuestra atencin a la segunda alternativa. La premisa bsica de la que parten todos aqullos que consideran que lo que hay que hacer es cambiar el sistema es que cualquier caracterstica de ste que suponga un reto o genere algn tipo de frustracin para los usua nos es absolutamente indeseable. Por el contrario, hay otros que creen que un Sistema que proporciona la posibilidad de crecimiento o desarrollo inte-

de que permite al usuario aprender a su ritmo, sin ningn tipo de presin tem poral y preservando su intimidad; pero, por contra, en la mayora de los sis temas las ayudas son bastante escasas, de poca calidad, no contextuales, limitndose en muchos casos a reproducir el manual de usuario impreso. A este respecto, estudios llevados a cabo por CHERRY y CLINTON [1992] ponen de manifiesto que la mayora de los usuarios de los OPAC aprenden de manera informal y casual, especialmente a travs del mtodo de ensayo y error; pero, por otro lado, los mismos estudios revelaban que la satisfaccin era mayor en aquellos usuarios que haban aprendido a usarlo a travs de programas de formacin estructurados. Por lo que se refiere a los contenidos concretos del programa de for macin, hay que decidir si es ms conveniente una formacin de naturaleza conceptual o una de carcter procedimental. La primera se centra en cmo funciona un sistema, en tanto que la segunda atiende a cmo se llevan a cabo tareas especificas en un sistema concreto. La mayora de los estudios realizados coinciden en que los programas deben ser amplios y abarcadores, no restringidos a las particularidades de un sistema determinado, lo que per mite que la formacin adquirida pueda ser empleada en diferentes sistemas [BAKER y SANDORE 1987]. Adems, tambin se ha probado que la forma cin de tipo conceptual es la ms adecuada para tareas complejas de reso lucin de problemas [BORGMAN 1986a; BAYMAN y MAYER 1984]. Una buena forma de saber qu es lo que hay que ensear a los usua rios es averiguar cules son las razones por las que tienen problemas cuan do utilizan los OPAC. JANOSKY et al. [1986] han llevado a cabo un anlisis de estas caractersticas, en el que han encontrado que el origen de muchos errores est en que numerosos usuarios acceden a los OPAC con unas expectativas poco realistas y, sobre todo, con modelos mentales inexactos del sistema. Los modelos mentales estn constituidos por la idea que el usuario tiene del sistema y de cmo funciona. Estos modelos tienen gran importan cia para proporcionarle una base para la solucin de problemas y la auto diagnosis de los errores durante la utilizacin del sistema. Es decir, es posi ble mejorar el rendimiento del usuario en los OPAC si se le transmite o da un modelo fiel y preciso del sistema antes de que lo use [BORGMAN 1986a]. El modelo conceptual del sistema sirve como metaestructura para el usuario en su adquisicin de conocimiento sobre el sistema. Si este modelo no se proporciona al usuario por el diseador del sistema (a travs del pro pio modelo del sistema o de su documentacin) o por un preparador o ins tructor, el usuario construye un modelo mental del sistema basado en su anterior experiencia y en sus interacciones con el sistema. Diversos estudios

demuestran que los modelos mentales desarrollados de esta forma son incompletos y/o incorrectos con mucha frecuencia [BAYMAN Y MAYER 1984]. En definitiva, necesitamos un mtodo de formacin que lleve a cabo una enseanza estructurada, que pueda llegar a todos los usuarios sin gran esfuerzo para la biblioteca, que les consienta aprender a su ritmo y cuyos contenidos sean de naturaleza conceptual, no procedimental. una buena solucin para hacer frente a todos estos requisitos es la propuesta por CHERRY et al. [1990]: un programa informtico tutora! inte ractivo con contenidos de carcter conceptual. Un tutonal proporciona una formacin estructurada, con las ventajas que ello comporta, pero adems permite al usuario aprender por si mismo, a su ritmo, sin tener que estar incluido en un grupo, a las horas que estime ms convemente. Por otro lado, dado que su contenido es de naturaleza conceptual, los conocimientos que con l se adquieran son transferibles al uso de otros OPAC.

111. EL ACCESO POR MATERIAS


una vez analizados el origen, desarrollo y perspectivas de los OPAC vamos a centrarnos de manera especifica en el acceso por materias, dado que es el rea ms necesitada de mejora y donde, por tanto, se han centrado la mayora de las investigaciones al respecto. Buena prueba de ello es que el proyecto Okapi, a partir de su versin de 1986, se dedica de manera exclu siva al acceso por materias. Tradicionalmente, los catlogos bibliotecarios han proporcionado unas posibilidades bastante limitadas para la bsqueda por materias. La mayor parte del esfuerzo en las bibliotecas se dedicaba a la catalogac1on descnptl va. De hecho, si alguna vez se planteaba la posibilidad de ahorrar t1empo, nunca se pensaba que se poda reducir en el rea de la catalogacin des criptiva, sino en [a por materias. Por ejemplo, en un estudio lle ado a cabo en la Universidad de Berkeley en 1950, se lleg a la conclus1on de que el escaso uso por los usuarios del acceso por materias justificaba la reducc'1n del esfuerzo que se le dedicaba [MARKLEY 1950]. En ningn momento se plante la posibilidad de que su baja tasa de uso fuera debida aldiseo ina decuado del acceso por materias. En definitiva, en el mundo b1bl1otecano .ha habido una cierta tendencia en contra del acceso por materias, que ha s1do considerado como algo adicional ms que como algo esencial [BATES 1986b]. Esta situacin ha cambiado radicalmente con la sustitucin del catlo go manual por los OPAC, que ha producido un gran resurgimiento del inte-

rs de la profesin bibliotecaria por todos los aspectos del acceso por mate rias [LANCASTER et al. 1989]. La razn basica se encuentra en que, como numerosos estudios han demostrado, la mayor parte de las bsquedas de los usuarios de los OPAC son de naturaleza tematica y, ademas, son las que presentan mayores problemas.

111.1. Predominio de la bsqueda por materias


El estudio de mayor envergadura sobre el uso de los OPAC, patrocinado por el CLR (Council on Library Resources) y llevado a cabo entre 1981 y 1982, puso de manifiesto que la bsqueda por materias era considerada por los usuarios como la forma de acceso mas importante. A este respecto, entre las principales conclusiones de este estudio se encuentran las siguientes [MAITHEWS et al. 1983; COCHRANE y MARKEY 1983]: a) Las bsquedas tematicas o por materias llegaban hasta un 59 por ciento del total de bsquedas. b) Las bsquedas por materias eran las que con mayor probabilidad resultaban problematicas para los usuarios, ya que en el 43 por ciento de los casos haba dificultades con su formulacin. e) De entre las posibles mejoras en las prestaciones ofrecidas por los OPAC, las relacionadas con las bsquedas !emticas eran las mas anheladas por los usuarios, ya que haba un 45 por ciento de ellos que deseaba tener la posibilidad de ver palabras relacionadas con sus trminos de bsqueda y un 42 por ciento que quera puntos de acceso adicionales (la posibilidad de ver los ndices de los libros). Es necesario advertir que este estudio del CLR se basaba en los datos conseguidos a partir de cuestionarios que contestaban los usuarios, lo que lleva consigo importantes limitaciones en cuanto a su validez, en especial porque hay que asumir en gran medida que los encuestados interpreten a su manera las preguntas del cuestionario. No obstante, y aunque de manera totalmente secundaria, este estudio tambin utiliz un mtodo alternativo que evitaba el problema de las interpretaciones: el denominado registro de ope raciones (transaction logging), cuyas conclusiones respecto a la bsqueda por materias fueron similares [TOLLE 1983; LAR SON y GRAHAM 1983]. Este mtodo de evaluacin aprovecha la nueva posibilidad ofrecida por los OPAC de registrar y controlar el uso que se hace de l, lo que per mite reconstruir de manera bastante fiable y completa todas las interacciones del usuario con el sistema, por lo que ha sustituido al cuestionario como mtodo mas utilizado para estudiar el uso del catalogo.

Durante estos primeros aos de implantacin de los OPAC se llevaron a cabo numerosos estudios que utilizaban el mtodo del registro de opera ciones para examinar diversos aspectos del acceso por materias. Por ejem plo, el realizado por LIPETZ y PAULSON [1987] en la New York State Library, que demostr que la introduccin del catalogo en linea supuso un aumento de la bsqueda por materias del 27 al 49 por ciento. O los de Neal KASKE [1988a, 1988b] en la Universidad de Alabama, que analizaban las grandes diferencias que se producan en el porcentaje de bsquedas por materias dependiendo de la hora del da, del da de la semana y de la sema na dentro del semestre, y de la disciplina cientfica concreta (es decir, segn la biblioteca de facultad donde se haca la bsqueda). Mas recientemente, Rhonda HUNTER [1991] ha hecho un estudio en la North Carolina State Uni versity que sigue evidenciando que la mayora (52 por ciento) de las bs quedas son por materias, pero que tambin son las de mayor ndice de fra caso, ya que el 62 por ciento de ellas daban como resultado cero referencias. Aunque antes de la aparicin de los OPAC ya haba autores como DON SWANSON [1964] que consideraban que la actividad basica en una biblioteca acadmica era el acceso por materias, los estudios llevados a cabo acerca del uso de los catalogas manuales ponan de manifiesto el claro pre dominio de la bsqueda por obra conocida respecto a la por materias [KRI KELAS 1972]. De esta forma, cual es la razn por la que se ha producido este nuevo inters de los usuarios a favor de la bsqueda por materias? Las posibles explicaciones son muy diversas, desde la de que el entorno en linea provoca nuevas necesidades hasta la de que realmente lo que ha hecho es simplemente estimular una necesidad que ya estaba latente [HANCOCK BEAULIEU 1989]. En realidad, uno de los problemas fundamentales es el de identificar las bsquedas por materias, lo que -en opinin de algunos autores- ha pro ducido que los datos sobre bsquedas por materias en el catalogo manual estn falseados, ya que muchas bsquedas por obra conocida eran real mente bsquedas por materias camufladas [HANCOCK-BEAULIEU 1990]. En este sentido, las caractersticas del catalogo tradicional fomentaban lo que podramos denominar bsquedas mixtas, es decir, empezaban siendo bsquedas por obra conocida y terminaban convirtindose en bsquedas por materias (se utilizaba una obra conocida como punto de partida para locali zar otras obras con el mismo encabezamiento de materia o nmero de clasi ficacin). En esta misma lnea, TAGLIACOZZO et al. [1971] sealaban que los usuarios del catalogo preferan usar nombres propios en lugar de otro tipo de entradas, incluso cuando estas ltimas podran ser consideradas como mejor opcin, ya que emplear un nombre propio es mas facil para el usuario que intentar adivinar el encabezamiento de materia apropiado, sobre todo si el objetivo es extraer un nmero de clasificacin para buscar en los estantes.

En cualquier caso, independientemente de que las cifras de la canti dad de bsquedas por materias en los catlogos manuales sean ms 0 menos exactas, parece evidente que las propias caractersticas y prestacio nes que ofrecen los catalogas en linea son razn ms que suficiente para justificar buena parte del aumento de la bsqueda por materias por parte de los usuarios.

111.2. Problemas de la bsqueda por materias en los OPAC


Desgraciadamente, las fuertes expectativas de Jos usuarios respecto al acce so por materias en los OPAC no se han visto satisfechas, ya que, de mane ra paradjica, la bsqueda por materias no slo es la ms utilizada sino tam bin la que plantea mas y mayores problemas. Estos han alcanzado un grado suficiente como para que en los ltimos aos se haya producido un importante descenso del nmero de bsquedas por materias. Ray LARSON [1991e] ha investigado este problema mediante un estudio en el que registraba las operaciones del sistema MELVYL a Jo largo de un periodo de seis aos. En total recogi mas de quince millones de bs quedas, que fueron objeto de examen para intentar extraer modelos y ten dencias en la bsqueda por materias. Los resultados mostraban que en ese perodo se estaba produciendo un suave pero consistente descenso en el porcentaje de bsquedas por materias (un 2'15 por ciento cada ao), unido a un incremento equivalente en la bsqueda por palabras clave del titulo. Basandose en que el descenso observado era mayor para los usuarios expe rimentados, Larson considera que las negativas experiencias previas de stos con las bsquedas por materias les han llevado a intentar vas alter nativas para sus bsquedas tematicas, en concreto mediante palabras clave en el titulo. Estos problemas han sido resumidos por LARSON [1991b] en Jos siguientes: a) Desconocimiento de los sistemas de encabezamientos de materia por parte de los usuarios. b) Dificultades con los aspectos mecnicos y conceptuales de la for mulacin de las bsquedas. e) Bsquedas que no recuperan ninguno o muy pocos registros. d) Bsquedas que recuperan registros que no se ajustan a lo que el usuario tenia en mente. e) Bsquedas que recuperan demasiados registros como para que puedan ser evaluados.

En realidad, Larson esta mezclando las causas con los resultados, esto es, los problemas con los encabezamientos de materia y con Jos diver sos aspectos mecnicos y conceptuales de las bsquedas son los que pro ducen dos resultados negativos: 1) fallo en la bsqueda, que incluye no slo la nula o escasa recuperacin de registros sino tambin la recuperacin de registros no relevantes; y 2) sobrecarga de informacin. As lo ha reconocido el propio Larson en otro de sus trabajos, haciendo una comparacin metaf rica con los dos monstruos marinos que Ulises se encuentra cuando quiere pasar el estrecho de Mesina: para conseguir su objetivo tiene que evitar cho car con la roca Escila (fallo en la bsqueda) y a su vez no ser atrapado por el remolino Caribdis (sobrecarga de informacin) [LARSON 1989]. La dificul tad estriba en evitar uno sin caer en el otro: la bsqueda controlada va enca bezamientos de materia tiende a producir fallo en la bsqueda, en tanto que la por palabras clave conduce a la sobrecarga de informacin.

111.2.1. Fallo en la bsqueda


Para conseguir la informacin adecuada que satisfaga sus necesidades de informacin, los usuarios deben formular su bsqueda mediante trminos que sean entendibles por el catlogo, es decir, tienen que hacer coincidir su lenguaje con el que utiliza el sistema en las descripciones bibliogrficas. Por tanto, hay un lenguaje estandar conocido y aceptado, el del sistema, y para ser un usuario competente del sistema es necesario conocer dicho lenguaje. Por otro lado, ademas de conocer el lenguaje de indizacin, los usua rios deben ser capaces de predecir qu trminos concretos de tal lenguaje han sido utilizados para indizar Jos documentos que satisfacen sus necesi dades de informacin [BLAIR 1986]. Desgraciadamente, la posibilidad de que tal prediccin se produzca es muy escasa. Como ha puesto reciente mente de manifiesto COLLANTES [1995], la accin de dar nombre a objetos y conceptos no es algo claro y sencillo, sino que, por el contrario, existe un gran desacuerdo entre las personas respecto a las palabras que usan para describir objetos o conceptos, armona que tampoco se encuentra entre los trminos que usan y los recomendados por la LCSH. Es decir, el proceso de dar nombre es algo muy individualizado, por lo que la prediccin es muy dificil. Esta dificultad puede comprobarse de manera emprica con los resul tados obtenidos en los estudios sobre consistencia en la indizacin y sobre coincidencia en la seleccin de los trminos de bsqueda: en el mejor de los casos el porcentaje de acuerdo apenas llega al 25 por ciento [BATES 1977a, 1989b; CLEVERDON 1984; SARACEVIC y KANTOr 1988; TONTA 1991]. En resumen, el cumplimiento por parte de los usuarios de ambos requisitos -conocimiento del lenguaje de indizacin y prediccin de los tr-

minos- resulta altamente improbable y, en la prctica, la mayora de los usuarios se limitan a expresar su necesidad de informacin usando el primer trmino que se les pasa por la cabeza [MARKEY 1984]. En consecuencia, el promedio de equiparaciones exactas con los encabezamientos de materia suele alcanzar niveles bastante bajos, ya que raramente llegan al 20 por ciento [MARKEY 1983]. El origen de este gran porcentaje de fallo en las bsquedas se encuen tra, adems de en los diversos problemas mecnicos y conceptuales que ya analizamos en el capitulo anterior -por lo que no nos vamos a detener ahora en ellos-, en la utilizacin de las listas de encabezamientos de materia como mtodo principal de acceso. La prctica totalidad de los especialistas consi deran que la bsqueda controlada mediante una lista de encabezamientos de materia no es la herramienta ms adecuada para la bsqueda temtica en los OPAC [BATES 1986b; BLACKSHAW y FISCHHOFF 1988; COCHRANE 1986; FROST y DEDE 1988; GERHAN 1989; PALMER 1986, etc.]. Aunque como en la gran mayora de los estudios, Ray LARSON [1991a] se centra en la lista de encabezamientos de la Bibliotec2 del Con greso (LCSH}, sus anlisis son perfectamente aplicables a las dems listas, por lo que sus conclusiones acerca de sus defectos en el coniexto de los OPAC tienen validez general. En su opinin, los problemasal respecto se pueden resumir en cinco: especificidad, exhaustividad, estructura del enca bezamiento, estructura "sindtica" limitada y parcialidad y falta de actualidad. A continuacin, vamos a analizarlos brevemente. 1) Especificidad. La regla de la entrada especifica es la ms importan te de la prctica en la asignacin de encabezamientos de materia y tiene su origen en los escritos de CUTIER [1904] acerca del catlogo. Sostiene que a cada libro se le debe asignar un encabezamiento que es especifico a su contenido, o sea, que no es ni ms genrico ni ms restringido. El problema principal de este sistema es que el material de inters para el usuario puede estar a distintos niveles de especificidad y, sin embargo, los trminos ms generales y ms restringidos que el que nosotros estamos utilizando estn dispersos por todo el catlogo alfabtico, por lo que no podemos saber cu les son y decidir si vale la pena que los empleemos o no. En contraste con esta prctica de los profesionales, hay estudios que demuestran que los usuarios finales suelen utilizar trminos ms amplios que la materia en la que estn realmente interesados [BATES 1977b; Nelson 1988]. En definitiva, la norma de la entrada especifica supone una limitacin de la indizacin a un nico nivel de especificidad, lo que supone eliminar una redundancia que poda ser muy beneficiosa para el xito de la bsqueda [BATES 1986b]. 2) Exhaustividad. El nmero de encabezamientos asignados a cada obra es muy pequeo, ya que el promedio no suele superior a 1'5 encabe-

zamientos por registro [AVRAM et al. 1967; O'NEILL y ALURI 1981]. La razn de esta escasez se encuentra en que el objetivo es indizar el docu mento como un todo, no las partes o conceptos dentro de l, lo que provoca que habitualmente slo se asigne un encabezamiento, con frecuencia de mucha longitud (los diversos subencabezamientos). Esta prctica tiene su origen en el carcter precoordinado de los encabezamientos de materia, que se combinan en el momento de la indizacin, no en el momento de la bs queda. Slo se asigna ms de uno cuando no hay un nico encabezamiento disponible que refleje el contenido del documento. Las obras de naturaleza miscelnea y multitemtica quedan especialmente mal descritas con este mtodo. 3) Estructura del encabezamiento. No hay unos principios coherentes respecto a la construccin de los encabezamientos. Las variaciones en la preferencia por las entradas en forma directa o inversa, junto con las incon sistencias en las normas acerca de las subdivisiones, hacen que sea muy poco probable que el usuario sea capaz de predecir cmo aparecer el enca bezamiento en el catlogo, incluso cuando conoce de antemano las palabras que lo constituyen. 4) Estructura "sindtica" limitada. La estructura "sindtica" de un cat logo se la proporcionan las referencias cruzadas "vase" y "vase adems", cuyo objetivo es intentar superar el problema de la divisin alfabtica de jerarquas relacionadas conceptualmente. Sin embargo, las normas sobre asignacin de encabezamientos de materias suelen prohibir los "vase ade ms" hacia trminos ms amplios, por lo que las referencias slo pueden ser dirigidas al mismo nivel o a uno ms especfico, e incluso estas ltimas son muy escasas en la prctica. Por otro lado, Marcia BATES [1977b] ha demos trado que estas referencias se limitan slo a unos pocos de los trminos que probablemente utilizara un usuario en su bsqueda. 5) Actualidad y parcialidad. Hay muchos trminos de las listas que ya han quedado obsoletos, o que poseen matices racistas o sexistas, por lo que son objeto de crtica. Los esfuerzos por cambiar estos trminos no pertinen tes pueden provocar otros efectos negativos. A las nuevas obras sobre un tema se les asignarn los nuevos encabezamientos, lo que puede producir importantes inconsistencias, dada la escasa probabilidad de que se lleve a cabo una recatalogacin que refleje los cambios en la terminologa. Tres de estos problemas -especificidad, exhaustvidad y estructura "sindtica" limitada- tienen su origen en razones de carcter prctico o eco nmico ligadas al catlogo manual. Se pretenda a toda costa reducir el volu men del catlogo de fichas, para lo que era imprescindible que el nmero de encabezamientos y el de referencias cruzadas fuera el mnimo posible. El

resultado es un catlogo alfabtico con una redundancia extremadamente baja, lo que dificulta en gran medida la equiparacin entre los trminos del usuario y los del sistema y, por tanto, incrementa la posibilidad de fallo en la bsqueda. Ante esta situacin, los usuarios han buscado formas alternativas de llevar a cabo sus bsquedas por materias. Para ello han aprovechado una posibilidad no incluida en el catlogo manual pero que si proporcionan los OPAC: buscar en el titulo mediante palabras clave. Como ya hemos visto con anterioridad, LARSON [1991c] ha detectado este cambio en los hbitos de bsqueda a favor del mtodo de las palabras clave. Por desgracia, este tipo de bsqueda conduce a menudo al otro gran problema: la sobrecarga de informacin.

pos del registro aumenta la posibilidad de que se produzcan emparejamien tos con los trminos de bsqueda del usuario, sobre todo si no se conside ran el orden o cercana de las palabras ni el campo en el que se encuentran. La lgica booleana, por otro lado, tambin tiene parte de responsabilidad. Se basa en un principio binario (un trmino de bsqueda est presente o ausen te), por lo que ni la cobertura ni la profundidad en el tratamiento del tema tie nen importancia ni en la indizacin ni en la formulacin de la bsqueda. De esta forma, se recuperan numerosos documentos, de los que muchos slo tratan de manera marginal o secundaria el tema de inters. Finalmente, tam bin han colaborado otros factores como el uso de truncamientos en las bs quedas, el operador booleano "O" o la ya mencionada tendencia de los usua rios a emplear trminos excesivamente genricos. El catlogo colectivo MELVYL (con unos 13 millones de !Jo/ding correspondientes a unos 7 millones de monografas) ilustra bien los dos pro blemas que estamos comentando. En noviembre de 1992, el 32 por ciento de las bsquedas recuperaban cero registros, mientras que el promedio de documentos recuperados por bsqueda era de 98 [BUCKLAND et al. 1992]. S en lugar de las cifras promedio vemos algunos casos concretos los resul tados son todava ms espectaculares: una bsqueda realizada en el catlo go de la Universidad de lllinois (con un milln y medio de registros) median te el trmino "escultura" produce un resultado de 762 registros si se hace en el titulo y 417 si es mediante encabezamiento de materia [HICKEY y PRAB HA 1990]; otra realizada en un catlogo de seis millones de registros con los trminos "flauta", "oro" y "semntica" da como resultado 7.848, 3.373 y 1.742 documentos, respectivamente [PRABHA 1990]. No hay un claro consenso acerca de qu es exactamente una recupe racin excesivamente grande. Por ejemplo, Karen MARKEY [1983] conside ra que si se recuperan ms de 20 registros (unas dos pantallas completas) el sistema automticamente debera sugerir al usuario que limitara la bsque da. BATES [1986a]. sin embargo, seala que muchos usuarios consideran que una respuesta de hasta 30 itemes es una bsqueda perfecta. En una cantidad similar se sitan WIBERLEY y DAUGHERTY [1988]. que creen que la mayora de los usuarios estn satisfechos con menos de 35 registros. Quiz la aproximacin ms interesante a esta cuestin es la realizada por BLAIR [1980], que establece la separacin entre adecuado y excesivo en lo que l denomina "punto de futilidad" del usuario. Este punto de futilidad es el nmero de registros que el usuario deseara ojear antes de abandonar su bsqueda frustrado. Adems, considera que hay otro punto de futilidad que podra ser denominado como "anticipado", que seria el nmero mximo de documentos recuperados que el usuario deseara empezar a ojear. Repre-

111.2.2. Sobrecarga de informacin


La sobrecarga de informacin es un problema que se viene estudiando desde hace aos por parte de los especialistas en psicologa cognitiva, en especial en el contexto de las decisiones de consumo. Se han examinado cules son las formas en que los consumidores piensany toman decisiones respecto a lo que desean comprar, y se ha comprobadoquela tensin y esfuerzo de manejar demasiada informacin interfiere y dificulta el proceso de toma de decisiones del individuo. La raz de este problema es muy sim ple: la capacidad de la memoria humana a corto plazo es bastante limitada [BAKER 1986]. Los usuarios de una biblioteca son sin duda un tipo especial de con sumidores, que han empezado a sufrir el problema de la sobrecarga de infor macin hace slo unos pocos aos. A medida que las bases de datos de los catlogos han ido aumentando su tamao se ha producido un incremento similar en el nmero de registros recuperados por un usuario que lleva a cabo una bsqueda por materias. La cantidad de registros recuperados puede ser tan grande como para que resulte muy dificil evaluar cules son los que realmente le interesan, e incluso puede provocar que el usuario ter mine ignorando el resultado de la bsqueda realizada. Como muy acertada mente seala DON SWANSON [1979], el objetivo bsico de la recuperacin de informacin tiene un carcter esencialmente negativo: ayudar al usuario a rechazar las obras no queridas tan rpidamente como sea posible y propor cionarle la mxima ayuda en la tarea de revisar cada etapa de la demanda. En su opinin, la tarea del usuario no es tanto encontrar informacin poten cialmente relevante, sino ms bien eliminar rpida y eficientemente la infor macin no querida. El tamao de la base de datos no es el nico factor que ha contribui do a crear este problema. La bsqueda por palabras clave en diversos cam-

senta el conjunto de mayor tamao de documentos recuperados que estara dispuesto a mirar. De esta forma, parece claro que el nmero de documentos considera do como excesivo depende en gran medida del usuario determinado, en con creto de sus objetivos y motivaciones. No es lo mismo un usuario que desea hacer una bsqueda exhaustiva sobre la bibliografa de una materia, que uno que slo quiere encontrar un libro que trate el tema que le interesa. A este respecto, tras examinar el registro de operaciones de MELVYL, Ray Larson [1986] comprob que muchos usuarios alcanzan muy pronto su punto de futi lidad: el promedio de registros recuperados por bsqueda era de 77'5, pero slo miraban una media de 9'1 registros por bsqueda.

prestado mucha ms atencin a la catalogacin descriptiva que a la por materias. Buena prueba de ello es que mientras para la primera se han esta blecido unas normas muy claras y definidas para llevarla a cabo (Reglas de Catalogacin, AACR, etc.) que le han permitido alcanzar un alto nivel de estandarizacin, la indizacin siempre ha adolecido de graves problemas de inconsistencia. Adems, la informacin descriptiva contenida en un registro es mucho ms completa que la temtica, debido sobre todo al escaso nme ro de encabezamientos de materia que se suelen asignar a cada obra. Habitualmente, se considera que un registro MARC contiene tres tipos de informacin temtica que, por tanto, pueden ser objeto de mejora: enca bezamientos de materia, palabras clave de diversas partes del registro e informacin clasificatoria. A estas tres, Ray LARSON [1991 a] aade una cuarta posibilidad de mejora de la base de datos: la creacin de nuevos tipos de ndices que combinan alguno -o todos- de los tres tipos bsicos de infor macin temtica sin modificar el contenido del registro MARC. En las prxi mas lneas vamos a seguir este esquema de las cuatro posibilidades de mejora para analizar las investigaciones y experimentos que hemos consi derado ms interesantes.

111.3. Soluciones
La situacin, por tanto, del acceso por materias en los OPAC es muy poco satisfactoria. Si los trminos introducidos por el usuario no se emparejan con alguno del sistema, aqul es sencillamente abandonado a su suerte, sin pro porcionarle ningn tipo de ayuda para identificar posibles sinnimos 0 para ampliar su bsqueda. Del mismo modo, si el usuario recupera demasiados registros, tambin tiene que decidir por sus propios medios la manera de res tringir su bsqueda para recuperar un nmero ms manejable de referencias. Para encontrar soluciones a estos problemas se ha llevado a cabo una intensa labor investigadora que se ha centrado en los tres factores bsicos que determinan el xito de un OPAC: la base de datos, los mtodos de bs queda y recuperacin y el interfaz de usuario [TAYLOR 1992].

111.3.1.1. Encabezamientos de materia


Ha habido mltiples intentos de mejorar el acceso por materias mediante el aumento del nmero de encabezamientos de materia de los registros, para lo que se han utilizado dos vas: asignar encabezamientos adicionales de la misma lista que utilizan (la LCSH normalmente) y aadir trminos extrados de diversos tesauros especializados o de otras listas de encabezamientos ms especificas. Esta segunda solucin, la inclusin y empleo de varios vocabularios de distinta procedencia, plantea diversos problemas que pueden tratarse de cuatro formas diferentes [MANDEL 1987]: a) Ficheros separados. En este caso, cada coleccin utiliza una lista o tesauro diferente, por lo que la bsqueda debe llevarse a cabo de manera separada. Este mtodo es adecuado si las diferentes listas o tesauros se aplican a materiales claramente diferentes, lo que per mite a los usuarios sacar partido de las caractersticas especificas de cada uno de tales vocabularios controlados. Sin embargo, tiene el problema de que hay que hacer varias bsquedas si se necesitan materiales que pertenecen a ms de una de las colecciones. b) Vocabularios mixtos. Es el mtodo ms utilizado y consiste en que los trminos procedentes de todos las listas o tesauros se recupe-

111.3.1. La base de datos


La base de datos constituye el elemento fundamental de un catlogo en linea, dado que es donde se encuentra recogida la informacin bibliogrfica. Es el componente que proporciona la informacin necesaria para hacer fren te a los objetivos del catlogo, en tanto que los otros dos elementos -los mtodos para la recuperacin y el interfaz de usuario- son los que facilitan el proceso de suministrar esa informacin al usuario. La escasez y poca calidad de la informacin temtica contenida en los registros que conforman la base de datos es una de las razones por las que no se cons1gue un buen acceso por materias en un catlogo en lnea. El con tenido y estructura de estos registros sigue la linea marcada por el catlogo manual de fichas, lo que es el origen de sus principales deficiencias. Como ya hemos mencionado con anterioridad, en las bibliotecas siempre se ha

ran juntos en las bsquedas. Presenta dos problemas: 1) puede pro vocar desacuerdos entre los vocabularios, ya que cabe la posibili dad de que un mismo trmino sea vlido en una de las listas y no lo sea en otra; y 2) produce una prdida de calidad en el acceso a colecciones especializadas. La importancia de estos problemas est en relacin directa con las prestaciones de bsqueda del siste ma y con la combinacin concreta de colecciones y vocabularios que tenga dicho sistema. e) Vocabularios integrados. Se trata de relacionar diversos tesauros de manera que se pueda desarrollar una estructura "sindtica" que ayude en la recuperacin de los sistemas que emplean un fichero de autoridades para las bsquedas por materias. Adems de las prestaciones adecuadas por parte del sistema, este mtodo requie re tambin un esfuerzo editorial que integre los vocabularios de que se trate. d) Navegacin front-end. Parte de la necesidad de desarrollar interfa ces inteligentes diseados para ayudar a buscar en vocabularios mltiples, ya sea mediante algoritmos de equiparacin de trminos, mediante pantallas de ayuda que sugieren alternativas en el voca bulario, etc. No obstante, la mejora ms frecuentemente llevada a cabo es la de incluir ficheros de autoridades de materias, es decir, utilizar los encabeza mientos como herramienta para el control y homologacin de los puntos de acceso y para ayudar al usuario a localizar las entradas de materia correc tas. Normalmente se ha usado como base el de la Biblioteca del Congreso (LCSAF: Library of Congress Subject Authority File), pero hay algunos casos en que se trata de ficheros locales o de una combinacin de ambos [LUDY 1985]. Se han llevado a cabo varios estudios para ver la efectividad de la implantacin del fichero de autoridades en linea para ayudar a los usuarios a localizar las entradas de materia adecuadas [DALRYMPLE y YOUNGER 1991; FROSTy DEDE 1988; SMITH 1991, etc.]. Casi todos coinciden en que la calidad de la recuperacin se ve mejorada con esta aplicacin, pero sea lan la dificultad de establecer una cuidadosa conexin de trminos del len guaje libre con el vocabulario controlado. En efecto, la LCSH representa un cuidadoso vocabulario controlado, pero que es funcional slo a un nivel muy general. En cierto sentido, mediante este procedimiento se intenta conseguir que una lista de encabezamientos de materia se parezca lo ms posible a un

tesauro. Para ello se han tomado diversas medidas, tales como la adopcin por parte de la LCSH de los cdigos estndar internacionales empleados por los tesauros para indicar su estructura "sindtica": USE, BT (broader term), NT (narrower term), RT (related term), SA (see also). Desgraciadamente, a pesar de estos esfuerzos, contina habiendo grandes diferencias entre la LCSH y un tesauro. Como seala DYKSTRA [1988], los encabezamientos precoordinados de la LCSH no pueden convertirse realmente en un trmino de tesauro, ya que las normas sobre construccin de tesauros exigen que sus trminos designen un concepto simple, nico, no una conjuncin de con ceptos, como suele ser habitual en la mayora de los encabezamientos de materia. En cualquier caso, parece claro que el simple aumento del nmero de encabezamientos de materia y su utilizacin para el control de autoridades sigue teniendo un problema bsico: el vocabulario contina estando limitado al del autor y al del catalogador/indizador, lxico que no tiene por qu ser el que utilice el usuario en la formulacin de su bsqueda. Esta es la razn por la que Marcia BATES [1986b] considera que la solucin estriba en proporcio nar un "supertesauro" de usuario final con una estructura "sindtica" muy rica. Bates propone un modelo para el diseo de los sistemas de recupera cin de informacin por materias basado en tres principios: incertidumbre, variedad y complejidad. Para ello, de manera previa, lleva a cabo un profun do y completo anlisis terico de los problemas bsicos del acceso por mate rias y, en especial, de los encabezamientos de materia. En nuestra opinin, vale la pena hacer un comentario de cierta amplitud de este trabajo, ya que saca a la luz algunas cuestiones fundamentales para entender el acceso por materias en los OPAC. Los actuales sistemas de recuperacin de informacin parten de una premisa bsica: es posible un sistema o lenguaje de indizacin ideal que nos permite producir una descripcin perfecta de cada documento. Esta descrip cin ideal producira, a su vez, el mejor ajuste posible con las necesidades de los usuarios expresadas en sus demandas. Segn Bates, ese ideal es imposible de principio, ya que el comportamiento en la indizacin y en la bs queda de informacin es en buena medida algo indeterminado y probabilsti co, como queda demostrado por los diversos estudios sobre consistencia en la indizacin o sobre coincidencia en la denominacin de objetos y concep tos ya mencionados con anterioridad. Debemos asumir, por tanto, que hay una clara indeterminacin asociada con las descripcin y la recuperacin de informacin, cuya raz se encuentra en la naturaleza de la mente humana. Dado un documento, es imposible predecir exactamente qu descripcin le dar un indizador. Dado un tema de inters para un usuario, es imposible

predecir qu aspecto especifico del tema buscar y qu frases o trminos concretos utilizar. Ms que ver este importante grado de incertidumbre presente en la recuperacin de informacin como un obstculo que hay que superar, Bates propone que se utilice como punto de partida para el diseo de los sistemas de recuperacin de informacin. As, los sistemas debern facilitar la res puesta mediante la presentacin y fcil exploracin de una diversidad de tr minos descriptivos, en lugar de ir dirigidos a identificar un nico y perfecto emparejamiento entre trminos de descripcin y de demanda. En cuanto al principio de variedad, Bates propone la aplicacin de la ley de Ashby: un sistema debe generar tanta variedad en sus respuestas al entorno como ste genera como entradas al sistema. En el campo de la recu peracin de informacin, esta ley supone que para conseguir toda la infor macin deseada nuestra formulacin de la bsqueda debe tener el mismo grado de variedad que las descripciones de la informacin. Esto es, si los indizadores producen una gran variedad en su indizacin, para poder llevar a cabo la bsqueda de manera satisfactoria es necesario que el usuario pro duzca el mismo grado de variedad en la formulacin de su bsqueda sobre un tema dado. Para conseguir esta equiparacin en las variedades de los dos siste mas: el de recuperacin de informacin y el usuario, se han seguido dos estrategias distintas. La primera consiste en reducir la variedad de los siste mas de recuperacin de informacin, en concreto, la descripcin de los docu mentos, lo que se consigue a travs del control de vocabulario de los len guajes de indizacin. La segunda es incrementar la variedad en la formula cin de bsqueda del usuario, lo que se consigue habitualmente mediante el mecanismo de las referencias cruzadas. Segn Bates, esta segunda estra tegia ha sido infrautilizada y tiene, sin embargo, un enorme potencial para mejorar la recuperacin de informacin. Unida a la idea de variedad se encuentra la de redundancia, descrita por Claude SHANNON [1948] como la diferencia entre la mxima eficiencia posible en la codificacin de un mensaje y la eficiencia real. Un catlogo por materias es un canal de comunicacin, pero con algunas peculiaridades. El receptor (usuario) necesita informacin sobre los libros, que se le transmite por los asientos catalogrficos. Los mensajes son denominados a travs de encabezamientos de materia, y el mensaje no se transmite hasta que no se ha producido un emparejamiento entre el encabezamiento de materia y el tr mino usado por el usuario. Para incrementar las posibilidades de empareja miento se necesitara aumentar el nmero de denominaciones de cada libro, esto es, el nmero de encabezamientos de materia. Por desgracia, como ya

hemos visto con anterioridad, el grado de redundancia conseguido a travs de los encabezamientos de materia es escasisimo, ya que la prctica habi tual produce poco ms de un encabezamiento por obra. Finalmente, el principio de complejidad pretende poner de relieve que un usuario no es un ser que tiene una necesidad de informacin simple que requiere un emparejamiento igualmente simple con los documentos de un sistema, sino que, por el contrario, es una persona extremadamente com pleja que piensa de manera asociativa y que tiene necesidades de informa cin igualmente complejas. Sin embargo, los sistemas de recuperacin exi gen del usuario que sea capaz de formular una buena demanda de informa cin para poder acceder al sistema y obtener una respuesta de l. Esto, como sealan BELKIN et al. [1982], es pedir demasiado, ya que para expre sar sus necesidades de informacin tienen que describir algo que no saben, debido a que el origen de aqullas se encuentra en el denominado "estado anmalo del conocimiento". Tradicionalmente, este problema con la iniciacin del proceso de bs queda y recuperacin ha sido afrontado por los usuarios mediante maniobras de aproximacin y orientacin. Uno de los resultados ms evidentes de estos mtodos es la tendencia de los usuarios a definir su necesidad de manera muy general, empleando trminos ms genricos de lo que realmente nece sitan. Hay estudios, entre ellos uno de la propia Marcia BATES [1977b], que demuestran que los usuarios que comienzan su bsqueda con trm[!Jos generales consiguen mejores resultados que los que lo hacen con trminos especficos. Resumiendo, el principio de incertidumbre nos demuestra que no es posible predecir los trminos que utilizar el indizador para describir un docu mento ni los que emplear el usuario para definir su bsqueda. Por su parte, el principio de variedad pone de manifiesto que para una buena recuperacin de informacin el usuario necesita generar tanta variedad en la formulacin de la bsqueda como variedad hay en la indizacin del tema de inters. Y, finalmente, el principio de complejidad defiende que entrar en un sistema de recuperacin de informacin, acostumbrarse a l e ingenirselas con los tr minos para la bsqueda es una tarea compleja y dificil. Las principales implicaciones de estos principios se pueden concretar en: a) inevitablemente habr una gran variedad en la indizacin de cualquier tema dado; b) para enfrentarse satisfactoriamente a un sistema de informa cin, el usuario debe generar tanta variedad en la formulacin de su bs queda como la que produce el sistema en su descripcin de un tema dado; e) los usuarios necesitan ayuda para acceder y orientarse en los sistemas de informacin; d) los usuarios probablemente no son conscientes de la necesi-

dad de tal variedad en la bsqueda y tienen dificultad para generarla incluso si son conscientes de tal necesidad; y e) por tanto, el sistema debera ayu dar al usuario a entrar en el sistema, a orientarse en l y a generar la varie dad necesaria. Dado que los sistemas actuales basan su acceso por materias en las lis tas de encabezamientos alfabticos, seria deseable sacar partido de esta indi zacin en lugar de plantearse una poco factible reindizacin. Sin embargo, este sistema impide la redundancia, por lo que parece poco apropiado para siste mas que se basan en la variedad y la redundancia. Es necesario, por tanto, encontrar la forma de sacar el mejor partido a las listas de encabezamientos. La solucin que propone Bates es la de producir un enorme aumento en el vocabulario de entrada, pero sin incrementar el tamao o carcter del vocabulario legitimo. Para ello debe elaborarse un "supertesauro" de usuario final, en el que la mayor parte de los trminos que lo componen no son enca bezamientos de materia, aunque estn conectados a stos o a otros trmi nos, de manera que sea muy poco probable que un trmino introducido por un usuario no se empareje con alguno de los que lo componen. Este "supertesauro" de usuario final debe ser algo muy distinto a lo que ella denomina como "tesauro de indizador", que est diseado y tiene el obje tivo bsico de servir a los indizadores, y slo de forma secundaria se dirige al usuario. En su opinin, la gran mayora de los tesauros en uso pertenecen a esta categora, cuyas caractersticas bsicas son las siguientes: excluye muchos trminos que serian usados en la realidad por los usuarios; incluye trminos que no son utilizados en la base de datos o biblioteca concreta; pro porciona notas de alcance slo de algunos trminos: aqullos en los que puede tener problemas el indizador; utHiza trminos o cdigos (xx, BT...) slo conocidos por los indizadores; proporciona pocas referencias cruzadas y ni camente dentro de la gramtica del tesauro. Por el contrario, un tesauro de usuario final, dado que va dirigido a ste, presenta unas caractersticas muy diferentes al anterior [PITERNICK 1984]: incluye todos los trminos en uso en el catlogo o base de datos en cualquier momento dado; distingue entre trminos realmente utilizados en la biblioteca y los no utilizados aunque incluidos en el tesauro; da notas de alcance para aclarar los problemas que probablemente se encontrar un usuario, e incluso proporciona algunas defi niciones; utiliza nombres que se explican por si mismos para los trminos o relaciones; proporciona un vocabulario de entrada muy amplio, dirigido a las caractersticas de un usuario final. De acuerdo con Bates, este ltimo rasgo es el ms significativo, ya que es la via para conseguir un gran redundancia y, por lo tanto, evitar que el trmino o frase introducida por el usuario no encuentre respuesta por parte del sistema.

Siguiendo esta distincin, un fichero de autoridades en linea seria ms bien un tesauro de indizador, razn por la que Marcia Bates lo considera poco adecuado y claramente insuficiente para proporcionar una ayuda apro piada al usuario en su bsqueda por materias.

111.3.1.2. Palabras clave


Una de las ventajas del catlogo en linea es que hace posible el acceso al contenido de cualquier campo del registro MARC que haya sido indexado. Los campos que habitualmente se utilizan para permitir el acceso por pala bras clave son los de materia, los de los diversos ttulos, nombres corporati vos, de congresos y, en algunos casos, los de notas, es decir, los campos que Karen MARKEY [1984] ha denominado "ricos en contenido temtico". En este punto nos encontramos con una de las cuestiones ms deba tidas en recuperacin de informacin: es mejor la bsqueda mediante un vocabulario controlado como los encabezamientos de materia o a travs de lenguaje libre? La mayora de los estudios al respecto concluyen que la bs queda mediante palabras clave por si sola no es un sustituto adecuado para la bsqueda mediante encabezamientos de materia. Uno de ellos es el realizado por GERHAN [1989], comparando la efi cacia de ambos tipos de bsqueda. Los resultados de su estudio demostra ban que los ttulos suelen incluir trminos tiles para el acceso por materias (en el 76 por ciento de los casos), pero que en muchas ocasiones (el 45 por ciento) el acceso no es demasiado bueno debido a que la terminologa es oscura y ambigua. En su opinin, la LCSH llevaba a los usuarios a registros relevantes en el 85 por ciento de los casos, circunstancia que slo suceda en el 55 por ciento si se hacia a travs de los trminos del titulo. No son tan claras, sin embargo, las conclusiones a las que llega Shir ley COUSINS [1992] tras comparar el rendimiento del lenguaje natural y de tres vocabularios controlados: PRECIS, LCSH y DOC. Los resultados por ella obtenidos ponen de manifiesto que PRECIS obtiene el mejor rendimiento, en tanto que DDC y LCSH quedan bastante atrs. No obstante, si el lenguaje natural es sometido a un mecanismo de reduccin a la raz de carcter dbil la ventaja de PRECIS desaparece. En este misma linea, Jennifer ROWLEY [1994] considera que lo ms adecuado es utilizar ambos sistemas, natural y controlado, en conjuncin, intentando as sacar partido y evitar las ventajas e inconvenientes, respecti vamente, de uno y otro. No obstante, se inclina ligeramente por el lenguaje controlado cuando se trata de sistemas dirigidos a usuarios finales, como es el caso de los OPAC.

En cualquier caso, los problemas ya mencionados con anterioridad respecto a los encabezamientos de materia han provocado en la prctica que se est produciendo una clara tendencia hacia el aumento de las bsquedas de los usuarios a travs de las palabras clave del ttulo [LARSON 1991e]. Una buena alternativa para mejorar los resultados de la bsqueda por palabras clave es la de aumentar la informacin contenida en los registros mediante la inclusin de trminos o texto adicionales, proporcionando as puntos de acceso complementarios. La propuesta pionera en este rea fue la realizada por Pauline ATHERTON [1978] a travs del Subject Access Project de la Syracuse Uni versity, en el que los registros fueron ampliados aadiendo trminos proce dentes del sumario e ndices de contenido de los libros. El proyecto deriv en considerar el ndice de contenido como un resumen que poda ser aadido a los registros MARC usando los campos 690 o 653. Recientemente KNUTSON [1991] ha dirigido un experimento para verificar si realmente se incrementa la circulacin de obras cuyos registros haban sido enriquecidos con este mtodo. La muestra, compuesta por libros (todos ellos compilaciones o actas de congresos) que previamente no hab an sido utilizados a pesar de que formaban parte de la coleccin desde hacia dos o tres aos, fue dividida en tres grupos. A uno de ellos se le aadieron notas de contenido y encabezamientos de materia para cada uno de los tra bajos que contena la publicacin. A un segundo grupo se le aadieron slo notas de contenido. Los registros del tercero, considerado como de control, no fueron enriquecidos. Un ao ms tarde al grupo que presentaba ambas mejoras le corresponda la mitad de las tasas de circulacin, a pesar de que representaba slo un tercio de los libros. Algunos aos despus de la propuesta de ATHERTON, BYRNE y MICCO [1988] han seguido la misma metodologa en la biblioteca de la Aus tralian Defence Force Academy. Aunque el desarrollo del proyecto demostr que se mejoraba y facilitaba enormemente el acceso por materias, su apli cacin a una base de datos de gran tamao resulta problemtica. En efecto, las dificultades para aplicar retrospectivamente este mtodo a una gran coleccin resultan obvias. La primera consecuencia es que incrementa el nmero de obras recuperadas enormemente: Byrne y Micco estimaron que el volumen de la recuperacin aumentaba aproximadamente en un 300%. Por otro lado, tambin haba problemas de carcter econmico-laboral, ya que se requirieron alrededor de 15 minutos por tem para aadir una media de 20,7 encabezamientos adicionales (53,6 puntos de acceso), obtenidos de los sumarios e ndices de contenido. En la actualidad, se estn empleando los nuevos avances tecnolgi cos para intentar solucionar estos problemas. Un buen ejemplo es el proyec-

to RIDDLE (Rapid lnformation Display and Dissemination in a Library Envi ronment), financiado por el Programa de Bibliotecas de la Comisin de las Comunidades Europeas y desarrollado entre 1993 y 1994, que estudia la via bilidad del uso de la tecnologa del escner para capturar los sumarios de revistas cientficas, extraer la informacin bibliogrfica del articulo y cargar estos datos en un catlogo en linea. El valor aadido del proyecto es su bajo coste, ya que se emplea tecnologa fcilmente disponible y se desarrolla sin dificultar los procesos tcnicos bibliotecarios habituales [Harrison et al. 1995]. La totalidad del proceso se realiz en varias etapas: a) el registro ini cial mediante escner de los sumarios de las revistas, durante el cual fue analizado el rendimiento de un total de treinta y dos escneres comerciales y comparada la velocidad del proceso en contraposicin a la fotocopia; b) la conversin de la imagen registrada a texto, evaluando las capacidades de varios programas de reconocimiento ptico de caracteres (OCR) para la con versin de la gran diversidad tipolgica de los ndices de contenido y proce diendo a la identificacin automtica de la revista a travs del ISSN; y e) la inclusin del texto en el catlogo en linea, etiquetando lo obtenido de la apli cacin del OCR mediante un lenguaje estndar como el SGML (Standard Generalised Markup Language) y "volcando" el resultado en el catlogo en linea. El proyecto hizo hincapi en evaluar el coste del sistema en compara cin con otros mtodos de obtener los mismos resultados. La aplicacin de sencillas funciones matemticas permiti medir anualmente si la aplicacin del sistema RIDDLE resultaba ms econmica que el empleo de un mtodo manual o recurrir a un proveedor comercial de servicios de pginas de contenido. Los resultados de las pruebas llevadas a cabo acerca de la eficacia de estos mtodos pueden calificarse como bastante satisfactorios en trminos generales. Sin embargo, tambin ponen de manifiesto que en catlogos de gran tamao conducen irremediablemente al segundo de los dos grandes problemas ya reseados: la sobrecarga de informacin [Fernndez-MOLINA y PEIS 1995]. 111.3. i .3. Sistemas de clasificacin En los paises anglosajones los esquemas clasificatorios se han utilizado mas como herramienta para ordenar las obras en los estantes que como mtodo para organizar el conocimiento humano para la recuperacin por materias. Esta circunstancia ha provocado que durante algn tiempo las clasificaciones hayan sido ignoradas como instrumentos tiles para la recuperacin de infor macin en los OPAC. Sin embargo, a partir de mitad de los ochenta comen-

zaron a surgir diversos experimentos, de los que el mas significativo es el DDC Online Project, que intentaban extraer el maximo partido a la informa cin clasificatoria contenida en los registros bibliograficos. Precisamente porque consideramos que la investigacin en este area es muy prometedora y fructfera le vamos a dedicar una mayor atencin en el capitulo V de este trabajo, por lo que no vamos a hacer mas considera ciones al respecto en este apartado.

encabezamientos de materia, consiguiendo asi un incremento en el nmero de puntos de acceso. La bsqueda en este ndice sigue el mtodo clsico de los primeros OPAC, es decir, emparejamiento de izquierda a derecha. Pre tende conseguir un equilibrio entre exhaustividad y precisin, ya que las redistribuciones de los trminos de los encabezamientos aumentan la prime ra, en tanto que la estructura "sindtca" de los ficheros de autoridades con tribuyen a que no disminuya la segunda [VENEZIANO 1989].

111.3.1.4. ndices especiales


El cuarto mtodo de mejora aadido por Ray Larson hace referencia a la cre acin de lo que l denomina "ndices especiales", que consisten en combinar varios de los ndices tradicionales para proporcionar acceso a los registros de forma novedosa o en implementar prestaciones adicionales para mejorar el proceso de bsqueda por materias. Considera que estos ndices pueden ser de dos tipos: a) los que intentan mejorar el acceso a las listas de pala bras clave tradicionales y b) los que pretenden generar nuevos puntos de acceso mediante mtodos de referencias cruzadas [LARSON 1991a]. La primera de las dos categoras de ndices se dedica fundamental mente a intentar superar el problema del fallo en la bsqueda. Para ello recu rre a mecanismos que ya hemos analizado en el captulo anterior: las tcni cas automticas de reduccin de las palabras a su raiz y de correccin orto grafica, que se han aplicado con xito en el catalogo Okapi, entre otros. No hemos comentado, sin embargo, con anterioridad otro tipo similar de ndices que hacen uso de sistemas de codificacin fontica. Uno de ellos es el denominado mtodo "n-gram", que consiste, en primer lugar, en dividir las palabras en subcadenas de una longitud dada ("gram") -normalmente de tres letras- y, posteriormente, en emparejar los trminos basandose en el nmero de subcadenas en comn entre los trminos de bsqueda y los del ndice. Otro tipo es el de los ndices fonticos, que sustituyen las palabras que tienen una pronunciacin similar por un cdigo representativo. La segunda categora abarca a aquellos ndices que son el resultado de combinar informacin procedente de diversos campos del registro en un ndice nico. Uno de los pioneros en proporcionar este tipo de ndice fue el sistema CITE de la NLM, que combinaba el vocabulario controlado con pala bras clave que haba sido sometidas a un procedimiento de reduccin a la raz [DOSZKOCS 1983]. Otro ndice de este tipo fue el desarrollado en otro de los catalogas en linea pioneros: NOTIS/LUIS de la Northwestern University. En lugar de usar palabras clave, se basa en combinar informacin de los registros y de fiche ros de autoridades y en la rotacin de las palabras de los subcampos de los

111.3.2. Los mtodos de bsqueda y recuperacin


Como ya hemos visto con anterioridad, las tcnicas de recuperacin de infor macin que utilizan la practica totalidad de los OPAC actuales -los de segun da generacin- se basan en los mtodos de equiparacin exacta (exact matc!Jing) y en el algebra de Boole. Aunque sus importantes limitaciones son conocidas y han sido ampliamente denunciadas por los especialistas desde hace bastantes aos, la falta de consenso en cuanto a cul es la mejor alter nativa, ademas de los problemas econmicos para su puesta en marcha en sistemas operativos, estn contribuyendo a perpetuar su actual monopolio. Las criticas a la utilizacin de estas tcnicas han sido especialmente numerosas a lo largo de la pasada dcada. Autores como BELKIN y CROFT [1987], BOOKSTEIN [1985], BORGMAN [1986b], COOPEr [1988], HIL DRETH [1983, 1987] o RADECKI [1982, 1988] han puesto de manifiesto sus mltiples deficiencias, que podemos resumir en las siguientes: -Al basarse en la indizacin binaria -los trminos de indizacin 0 estn o no estan en cada documento- se pierden muchos documen os relevantes cuyas representaciones slo se equiparan parcialmen te con los trminos de bsqueda. -No tienen en cuenta la importancia relativa de los conceptos dentro de los documentos y en cada formulacin de bsqueda. Esta rigidez impide que la bsqueda refleje de manera suficientemente fiel y matizada la necesidad de informacin y que los documentos recu perados se ordenen de acuerdo con la relevancia respecto a tal necesidad. - Los operadores booleanos son excesivamente restrictivos o dema siado inclusivos. El empleo de la interseccin "Y" con fechas u otros trminos adicionales como forma de disminuir el tamao de las recu peraciones puede provocar con facilidad fallo en la bsqueda, ade mas de ignorar la relevancia potencial de documentos mas antiguos. Por el contrario, el operador "O" conduce invariablemente a recupe raciones muy grandes, esto es, a la sobrecarga de informacin. - Dado que la lgica booleana es algo inherentemente complejo y

escasamente intuitivo, la formulacin de las bsquedas mediante los operadores booleanos es con frecuencia demasiado complicada. En numerosas ocasiones resulta muy dificil transformar una necesidad de informacin expresada en lenguaje natural en una expresin de bsqueda booleana. -Para que las dos representaciones -la de la bsqueda y la de los documentos- puedan ser comparadas es necesario que se haya empleado el mismo vocabulario. La va mas utilizada para solucionar estos problemas es la de aplicar los mtodos derivados de la investigacin en recuperacin de informacin: equiparacin parcial (parta/ matching), reduccin de los trminos a la raz, correccin de errores ortogrficos y tipogrficos, ordenacin de los docu mentos recuperados de acuerdo con su relevancia, mecanismos de relevance feedback, etc. La utilizacin de estas tcnicas da lugar a los denominados OPAC de tercera generacin, algunos de los cuales ya hemos analizado bre vemente con anterioridad: CITE, Okapi, SPRILIB. La aplicacin de estos mtodos intenta hacer frente a los dos grandes problemas ya mencionados. As, por ejemplo, la reduccin a la raz evita el fallo en la bsqueda, en tanto que la ordenacin de los documentos recupe rados ayuda a superar la sobrecarga de informacin, ya que el usuario podra parar en el analisis de las referencias en el momento que lo desee con la garanta de que ya visto los ms relevantes. Un segundo enfoque que se ha seguido en los catlogos de tercera generacin, que no es incompatible con el anterior sino complementario, es el de probar con formas alternativas de acceso a la base de datos. En con creto, se ha planteado la posibilidad de organizar la base de datos en forma de hipertexto, lo que de manera implcita supone considerar el browsing como mtodo de bsqueda mas adecuado. La idea bsica del hipertexto es muy simple: toda la informacin se encuentra conectada en un conjunto textual que est compuesto por una serie de nodos -que suelen representar un tem o un trmino- y de enlaces -que representan las conexiones asociativas entre los nodos-. De esta forma, se va estableciendo una compleja red interconectada que puede ser recorrida con facilidad. La idea del sistema bibliotecario basado en el hiper texto fue propuesta por HJERPPE [1986] como una extensin y mejora del catlogo tradicional, utilizando para ello el material ya disponible en los regis tros bibliograficos. En su opinin, las caractersticas distintivas de un "hiper catalogo" en relacin con el catlogo c,lsico son las siguientes [HJERPPE 1989]:

- El browsing y la navegacin son los modos basicos de usar el cata logo, aunque tambin proporciona los mtodos de bsqueda tra dicionales. -Su grado de estructura interna es mucho mayor. - Dispone de medios alternativos para presentar e ilustrar la informacin, las estructuras y las relaciones. -Tiene herramientas para establecer relaciones y seguir direcciones o senderos. - Es dinamico por naturaleza, no slo por el crecimiento del nmero de registros. -Cuenta con modelos de usuarios, tanto estereotipados como indivi dualizados, para facilitar la adaptacin a los diferentes tipos de usua rios as como a las necesidades individuales. -Contiene mayor cantidad y diferente informacin que el catalogo tra dicional, en especial en trminos de conexiones y relaciones entre campos, registros y ficheros. -Proporciona informacin no slo sobre itemes individuales, sino tam bin sobre colecciones. El principal inconveniente que presentan es el de la (des)orientacin [FOSS 1989], que se agrava en bases de datos de gran tamao donde la estructura de nodos y conexiones puede llegar a ser demasiado grande y compleja, haciendo que la navegacin a travs de ella sea dificil y tediosa. Resumiendo, la aplicacin de las tcnicas avanzadas de recuperacin documental pretende: -Dirigir al usuario desde sus trminos de lenguaje natural a los enca bezamientos o nmeros de clasificacin asociados a los documen tos relevantes. -Mitigar el fallo en la bsqueda mediante mtodos de correccin de errores ortogrficos y tipogrficos, de reduccin a la raz y de equi paracin parcial. -Ordenar los documentos recuperados de acuerdo con su relevancia. -Facilitar la expansin de las bsquedas mediante mecanismos de relevance feedback. Por otro lado, los sistemas basados en el hipertexto intentan: - Facilitar el browsing y la bsqueda exploratoria de la base de datos.

- Permitir al usuario que se mueva fcilmente desde los documentos conocidos o encontrados a otros que tienen los mismos encabeza mientos, nmeros de clasificacin o cualquier otra caracterstica comn. Parece evidente, por tanto, que ambos enfoques no deben ser consi derados como excluyentes mutuamente, sino que, por el contrario, los OPAC pueden beneficiarse de la aplicacin complementaria de ambos tipos de mejoras [LAR SON 1991a].

Como ya vimos con anterioridad, los primeros deben su aparicin y desarrollo a los grandes avances que ha experimentado el hardware en los ltimos aos, que permiten unas enormes posibilidades en las prestaciones grficas de ordenadores personales y estaciones de trabajo que hasta hace poco parecan meras aspiraciones difcilmente alcanzables. Adems de acuar el trmino "manipulacin directa", Shneiderman [1986] nos aporta un buen resumen de cules son las principales ventajas que aporta un interfaz de estas caractersticas: - Los nuevos usuarios pueden aprender fcil y rpidamente las opera ciones bsicas del sistema a travs de demostraciones o ejemplos. - Los usuarios expertos pueden trabajar con rapidez para llevar a cabo una amplia gama de tareas. - Para los usuarios ocasionales resulta ms fcil mantener el conoci miento acerca de su funcionamiento. -Son menos necesarios los mensajes de error, ya que en muchos casos ni siquiera es posible llevar a cabo las acciones prohibidas. - Los usuarios pueden ver inmediatamente los resultados de sus acciones y si stas contribuyen a la consecucin de sus objetivos. En caso contrario, pueden modificar tales acciones u objetivos. -Los usuarios experimentan menos ansiedad, ya que el sistema es fcilmente comprensible y las acciones son reversibles de manera sencilla. -Al ser los iniciadores de la accin, los usuarios consiguen confianza y dominio del sistema, sienten que lo controlan y que responde a sus iniciativas de la manera prevista. Ya mencionamos en el capitulo anterior varios ejemplos interesantes de interfaces de este tipo, en especial aqullos que intentan reproducir grfi camente la apariencia fsica de una biblioteca por la que el usuario puede moverse y buscar la informacin que necesita [BEHESHTI 1992; Benest et al. 1987; MCALEESE y DUNCAN 1987]. El convencimiento de la necesidad de proporcionar a los usuarios fina les amplias prestaciones de browsing ha conducido a que la mayora del esfuerzo investigador se haya centrado en este campo. Para ello se han seguido dos vas diferentes: mediante los interfaces grficos que acabamos de comentar y a travs de tcnicas para reducir la sobrecarga de informacin que se produce en la presentacin de las materias en la pantalla. Habitualmente, la base de datos de los OPAC es de gran tamao, por lo que su ndice de materias puede ser tan grande como para que su exa-

111.3.3. El interfaz de usuario


El interfaz de usuario est compuesto por todas aquellas partes del sistema dedicadas al intercambio de informacin entre el usuario y el sistema. Cons tituye, por tanto, la parte ms visible del catlogo en linea, por lo que salvo para los usuarios muy experimentados -muy poco numerosos en los OPAC puede tener un impacto mayor sobre su satisfaccin inicial que cualquier tc nica de recuperacin empleada. No slo se dedica a recibir y analizar las ins trucciones del usuario, sino que tambin organiza y da formato a los datos bibliogrficos recuperados o a los mensajes del sistema para presentarlos en la pantalla y detecta los errores en la introduccin de instrucciones por parte del usuario, proporcionndole adems ayuda para corregirlos. De esta forma, adems de proporcionar ms y mejores puntos de acceso y tcnicas de bsqueda y recuperacin ms avanzadas, es posible producir importantes mejoras en el acceso por materias a los OPAC propor cionando un interfaz de usuario de mayor calidad. En trminos generales, ste debera ser capaz de decir al usuario qu hacer, cmo hacerlo y por qu puede mejorar los resultados, aunque sin proporcionarle demasiada infor macin al respecto que podra abrumarle y desanimarle para utilizar el cat logo. Se tratara, por tanto, de mejorar la capacidad de dilogo entre usuario y sistema, muy limitada en los clsicos interfaces basados en el lenguaje de rdenes. En opinin de Charles HILDRETH [1989b], es precisamente en este rea donde se est llevando a cabo el mejor trabajo de desarrollo de los OPAC avanzados, mediante el empleo de diversas tcnicas que simplifican el aprendizaje y uso de los mecanismos de bsqueda y que permiten que el usuario se mantenga informado, orientado y "en contexto", haciendo que la seleccin, la entrada y la expansin de la bsqueda sean mucho ms fciles. Las direcciones investigadoras que se han seguido en este rea pue den resumirse en tres: los interfaces grficos de manipulacin directa, los que pretenden mejorar las posibilidades de browsing y los mecanismos inter med,arios o front-end.

men, incluso en un rea restringida, sea bastante dificil. Adems, la natura leza horizontal de la especificidad de los encabezamientos de materia -se consigue a travs de diversas subdivisiones- aumenta estos problemas de sobrecarga de informacin en la pantalla. Consciente de este problema, Mia MASSICOTTE [1988] llam la atencin sobre el hecho de que Jos resultados de las evaluaciones de OPAC respecto al acceso por materias ponen de manifiesto que, incluso para un tema no muy amplio, puede ser necesario para un usuario examinar cientos de encabezamientos de materia para poder obtener una visin global del tema. Por ello sugerla que era imprescindible restringir el nmero de encabezamientos de materia que los usuarios tienen que examinar inicialmente, de manera ideal una sola pantalla de encabeza mientos por cada tema. Su propuesta consista en que la pantalla de browsing se redujera mediante la sustitucin de muchos encabezamientos por categoras concep tuales amplias. Por ejemplo, las mltiples subdivisiones geogrficas de algu nos temas podran ser sustituidas por una simple nota: "subdividida por reas geogrficas". Partiendo de esta idea, MCGARRY y SVENONIUS [1991] lle gan algo ms lejos, ya que proponen una tcnica de compresin ms radical denominada blanket compression (compresin general), consistente en que todos Jos subencabezamientos se suprimen en las pantallas iniciales de encabezamientos de materia utilizando un algoritmo que reconoce la repeti cin de Jos primeros elementos de los encabezamientos. Tambin en esta misma lnea, ALLEN [1993] ha desarrollado un interfaz de browsing para ayu dar a reducir la lectura excesiva sin reducir el nmero de encabezamientos relevantes potenciales encontrados. Para conseguirlo dispone de dos fun ciones denominadas "expand" y "contract". La primera permite a Jos usuarios acceder a Jos sucesivos niveles de subencabezamiento de acuerdo con sus necesidades. La segunda acta en sentido inverso, permitiendo la contrac cin de la lista hasta alcanzar el nivel de subdivisin deseado. Algo antes, STUDWELL [1990] haba propuesto otra solucin parecida, que consista en establecer dos niveles de encabezamientos: cuando se asigna un encabe zamiento se le da un indicador de cmo puede ser dividido, Jo que permite que cada biblioteca escoja entre un encabezamiento corto abreviado o el encabezamiento completo de segundo nivel. En cuanto a la tercera direccin investigadora, hay que sealar que el interfaz de usuario no tiene por qu estar constreido por las limitaciones impuestas por la base de datos y Jos mecanismos de recuperacin del siste ma, sino que puede superarlas mediante la utilizacin de dispositivos de ca rcter local como, por ejemplo, a travs de sistemas intermediarios inteligen tes de tipo ront-end [ROBERTSON et al. 1986]. A este respecto, una de las vas ms prometedoras que se han suge rido para conseguir sistemas intermediarios que se adapten a las caracteris-

ticas especficas de cada usuario es la de emplear las tcnicas procedentes de la investigacin en inteligencia artificial y sistemas expertos. Un sistema experto puede definirse como un programa informtico que utiliza el conocimiento experto para alcanzar altos niveles de rendimiento en una rea de problema restringida. Un sistema experto que agrupa en su seno el conocimiento y tcnicas de un bibliotecario o intermediario de la bsqueda de informacin para llevar a cabo bsquedas en lnea en bases de datos bibliogrficas o textuales podra denominarse como sistema experto inter mediario o sistema experto de ayuda a la recuperacin. Si Jo comparamos con otros sistemas expertos, uno de ayuda a la recuperacin presenta algunas caractersticas especificas, que Paice [1986] resume en dos: a) El sistema experto intermediario se interesa por el acceso indirecto a la informacin. Su experiencia se centra en las tcnicas de recu peracin de referencias de documentos ms que en deducir y sumi nistrar datos. b) Su mbito o cobertura temtica es normalmente ms amplia, y a menudo mucho ms, que un sistema experto tpico. En Jugar de reglas y hechos, la base de conocimiento de este tipo de sistemas consistira principalmente en estrategias para clarificar el tema de bsqueda, estrategias para buscar en el sistema de recuperacin de infor macin y reglas para seleccionar las estrategias. Son numerosos los autores que, al igual que Brooks [1987], han expre sado sus dudas acerca de que un sistema experto pueda ser desarrollado para la recuperacin de informacin, basandose en que sta implica muchas tareas heterogneas y en que los sistemas de recuperacin de informacin suelen servir a grandes poblaciones de usuarios muy poco homogneos. El hecho de que hasta ahora los sistemas expertos slo hayan tenido xito en reas de problema estructuradas y restringidas contribuye a que esta opinin sea mayoritaria. No comparten este criterio Khoo y Poo [1994], que consideran que sera posible construir un sistema efectivo de recuperacin de informacin de este tipo centrndose ms en las estrategias de bsqueda que en el conoci miento de la materia. Adems, en su opinin, un catlogo en linea sera ms fcil de implantar que ur.o de tipo fu// text. Comparado con otros tipos de interfaces de catlogos en lnea, un sistema experto tendra las siguientes caractersticas bsicas:

- Se obtienen bsquedas heursticas a partir de expertos humanos. - El sistema experto no tiene slo una heurstica, sino un verdadero repertorio de estrategias. -No ejecuta una secuencia fija de estrategias, sino que tiene reglas para seleccionar estrategias en situaciones diferentes. - La base de conocimiento de estrategias es modular, de manera que las estrategias pueden aadirse o eliminarse facilmente. - Puede controlar su propio rendimiento. - Puede explicar la estrategia de bsqueda usada y por qu se selecciona esa estrategia concreta. La utilizacin de procedimientos heursticos para incrementar el poder de los sistemas de recuperacin de informacin ya haba sido propuesta por Clifford LYNCH [1987], al considerar que mejoran el dialogo entre sistema y usuario, guiando a ste en la refinacin de su bsqueda. Una forma de emplear este tipo de procedimientos es usar informacin de los registros ya recuperados para recuperar mas registros automaticamente, tal y como lo hacen sistemas como Okapi o CITE. Sin embargo, a diferencia de los siste mas expertos, estos sistemas usan una estrategia fija o una secuencia fija de estrategias. En este sentido, si un sistema experto es capaz de escoger de entre el repertorio de mtodos heursticos disponibles el mas adecuado para responder a cada situacin diferente, debe ser capaz de realizar la bsque da de manera mas efectiva que los sistemas de estrategia fija. Un buen ejem plo puede ser el sistema experimental 1propuesto por CROFT y THOMP SON [1987]. A diferencia de estos sistemas que dan al usuario un papel secunda rio en la direccin del proceso de bsqueda, Marcia BATES [1990] reclama que tal direccin debera ser asumida de manera directa por parte de los usuarios. Con este planteamiento como punto de partida, ella haba hecho algo antes una de las mas interesantes propuestas en este area: un interfaz de usuario de un sistema imaginario denominado FSM (Front-End System Mind), que se adapta a las necesidades, experiencia y lenguaje del usuario para proporcionarle ayuda en el proceso de bsqueda por materias. Se deno mina front-end porque es la parte del sistema que el usuario encontrara en primer lugar. Se llama system mind porque refleja el pensamiento y la orga nizacin impuestos sobre los datos por los diseadores del sistema y los catalogadores, de manera que al utilizarlo se le esta mostrando de manera implcita al usuario cmo tratar eficazmente con el principal producto de ese pensamiento, el catalogo por materias. Estara compuesto por una red semantica cuya base es un tesauro de usuario final mejorado por una red de

asociaciones, que incluye las tomadas del sistema de clasificacin, trminos que co-indizan un documento y trminos del ttulo de los documentos ndza dos por un encabezamiento de materia. Este interfaz incrementa las posibili dades de que los trminos del usuario se emparejen con uno o mas trminos del tesauro, y permite al usuario explorar una rica red de conexiones y aso ciaciones [BATES 198Gb].

IV. LA BSQUEDA DE INFORMACIN


El acceso por materias en los OPAC se encuadra dentro de una actividad mas amplia: la bsqueda de informacin. Por tanto, consideramos que para seguir con este estudio es imprescindible que hagamos una breve aproxi macin a este fenmeno, que nos ayudara a entender los problemas funda mentales de la bsqueda por materias as como sus posibles soluciones. La bsqueda de informacin es una actividad de solucin de proble mas en la que intervienen varios factores o elementos: un buscador de infor macin, un problema o necesidad informativa, un area de conocimiento, un sistema de bsqueda y un conjunto de resultados, todos y cada uno de los cuales influyen en los demas y en el resultado final del proceso de bsque da. Sin embargo, tradicionalmente la investigacin se ha centrado casi en exclusiva en uno solo de estos elementos: el sistema de bsqueda. Los sis temas de informacin y los intermediarios que los gestionan han estado regi dos por un paradigma bibliografico centrado en coleccionar y clasificar textos y en disear estrategias para su recuperacin. Esto ha promovido una visin del uso de informacin desde la perspectiva del sistema y ha concentrado la recuperacin sobre las cuestiones relativas al emparejamiento o equipara cin entre la representacin de los textos del sistema y la de las demandas de los usuarios, olvidandose de intentar entender y responder a los verdade ros problemas del usuario. De esta forma, el elemento mas importante, el usuario, ha sido muy poco tenido en cuenta a la hora de disear los sistemas de recuperacin de informacin. No obstante, esta situacin ha cambiado en los ltimos aos y se han llevado a cabo estudios para examinar y comprender el proceso de bsque da de informacin de manera mas global y abarcadora. Son numerosas las investigaciones dirigidas a analizar y entender el comportamiento del usuario cuando busca informacin: cmo surge su necesidad de informacin, si se debe a razones de caracter fsico, afectivo o cognitivo, qu problemas en cuentra para su definicin, qu estrategias desarrolla para satisfacerla, qu caractersticas personales o formacin ayudan o dificultan el proceso de bs queda, etc.

En nuestra opinin, esta visin del estudio del proceso de bsqueda de informacin es mucho ms adecuada que la clsica, por lo que la vamos a seguir en este trabajo.

Por otra parte, hay diversos tipos de necesidades o problemas de informacin dependiendo del objetivo perseguido y de su grado de definicin. INGWERSEN y WORMELL [1988] distinguen tres: a) Problemas de informacin verificativos: El usuario quiere verificar o localizar documentos especificas conocidos por l. Es decir, la estructura de conocimiento del usuario contiene los datos necesa rios para expresar su necesidad de informacin. b) Problemas de informacin temtica conscientes: El usuario quiere clarificar o revisar un rea temtica, incluyendo la recuperacin de datos dentro de esa materia conocida. Su estructura de conoci miento contiene los conceptos y trminos necesarios para expresar la informacin potencial requerida. e) Problemas de informacin temtica difusos: El usuario quiere explo rar nuevos conceptos o relaciones conceptuales en un rea temti ca no conocida. La estructura de conocimiento es dbil, difusa o ine xistente con respecto a la informacin potencial requerida. El pro blema est mal definido. La relacin entre estas tres categoras y los cuatro niveles descritos por Taylor puede conducirnos a algunas conclusiones interesantes. Es evi dente que tanto las necesidades verificativas como las conscientes se ven reflejadas en el tercer nivel de Taylor, la necesidad formalizada, en la que las estructuras cognitivas del usuario pueden considerarse consistentes. Igual mente clara resulta la equiparacin entre las necesidades difusas y el segun do nivel de Taylor, la necesidad consciente, que representa una etapa en la que todava no se ha alcanzado un sufic'1ente grado de claridad respecto a la forma de expresar la necesidad de informacin. Esto da lugar a lo que se ha denominado "efecto etiqueta" [INGWERSEN 1982]: el usuario describe su necesidad de informacin en trminos de una "etiqueta", es decir, usando una serie de conceptos ms genricos -o incluso fuera de contexto- que el problema subyacente. Como resultado, este tercer tipo de necesidad de informacin hace necesario que el sistema le suministre un apoyo conceptual de mucho mayor grado que el que requerira una necesidad de informacin de los otros dos tipos. En consecuencia, la pertenencia a cada una de estas tres categoras tiene una enorme influencia en el desarrollo del proceso de bsqueda, en las estrategias concretas a utilizar, as como en las posibilidades de xito de la misma.

IV.1. El proceso de bsqueda


Desde esta perspectiva global de anlisis del proceso de bsqueda se han desarrollado diversos modelos que lo describen a travs de una serie de fases o etapas, de las que la primera y origen de las dems es la necesidad de informacin.

1V 1.1. Las necesidades de informacin


La razn por la que se inicia una bsqueda de informacin es la existencia de una necesidad de informacin. Esta ha sido definida y caracterizada de muy diversas formas: como una carencia o vaco [DERVIN 1983], una nece sidad visceral [TAYLOR 1962], una anomala en el estado de conocimiento [BELKIN 1980], una situacin problemtica [WERSIG 1979] o un defecto en un modelo mental [MARCHIONINI 1989]. El anlisis de estas definiciones pone de manifiesto que, aunque parecen predominar las razones de natura leza cognitiva para justificar su nacimiento, tambin tienen su origen en moti vos de carcter fsico o afectivo, tal y como reclamaba Tom WILSON [1981]. Una buena explicacin de la forma en que surge esta necesidad nos la proporciona el propio Robert TAYLOR [1968]. Basndose en una serie de entrevistas con bibliotecarios, Taylor sugiere cuatro niveles en la formacin de una pregunta o cuestin. Tres de ellos son intrnsecos y el cuarto consti tuye la demanda de informacin al sistema. Los cuatro niveles, que se van sucediendo uno tras otro en un proceso continuo, son los siguientes: 1) Necesidad visceral: La necesidad de informacin en si, aunque no expresada todava. 2) Necesidad consciente: La descripcin consciente, dentro del cere bro, de la necesidad de informacin. 3) Necesidad formalizada: La expresin formal de la necesidad, es decir, se describe su rea de duda en trminos concretos y se tie nen en cuenta el contexto y las limitaciones del sistema que se va a utilizar. 4) Necesidad comprometida: La pregunta o cuestin tal y como se va a presentar al sistema, es decir, la demanda de informacin.

IV 1.2. Etapas del proceso


Se han llevado a cabo varias investigaciones para establecer un modelo que represente el proceso de bsqueda de informacin por parte de un usuario. Estos modelos definen las fases o etapas que componen el proceso y las actividades que tienen lugar en cada una de ellas. Evidentemente, hay dife rencias entre las propuestas de los diferentes autores, en especial respecto al nmero de fases y a la separacin entre ellas. No obstante, en trminos generales todos ellos comparten la idea de describirlo desde una perspecti va holistica. Uno de los ms interesantes es el propuesto por Carol KUHLTHAU [1991], que incorpora tres reas de actividad: fsica, las acciones llevadas a cabo; afectiva, sentimientos experimentados; y cognitiva, pensamientos rela tivos al proceso y al contenido. El usuario se mueve desde el estado inicial de necesidad de informacin al estado objetivo de resolucin por una serie de elecciones hechas a travs de una compleja interaccin dentro de esas tres reas. Los criterios para tomar esas decisiones estn influidos tanto por limitaciones contextuales, como experiencia, conocimiento e inters anterio res, informacin disponible, requisitos del problema y tiempo asignado a la resolucin, como por la relevancia del contenido de la informacin recuperada. El modelo consta de seis etapas: iniciacin, seleccin, exploracin, for mulacin, coleccin y presentacin. La iniciacin se produce cuando una persona se da cuenta de su falta de conocimiento sobre un determinado asunto, es decir, se reconoce la nece sidad de informacin. A partir de ah, se contempla el problema, se com prende la tarea a realizar y se relaciona el problema con la experiencia y conocimientos previos. Esta situacin suele provocar sentimientos de incer tidumbre y aprensin. Durante la seleccin la tarea consiste en identificar y seleccionar el tema general a investigar o el mtodo a seguir. Se evalan las posibles pers pectivas del tema, los intereses personales, la informacin disponible y el tiempo asignado. Se hacen predicciones acerca del resultado a obtener de las posibles alternativas. Los sentimientos de incertidumbre suelen dar paso al optimismo una vez que la seleccin se ha hecho, por lo que se produce una buena disponibilidad para empezar la bsqueda. No obstante, si la selec cin se retrasa o se pospone por alguna razn es posible que los sentimien tos de ansiedad se intensifiquen hasta que aqulla se produzca. Durante la fase de exploracin se investiga y recopila informacin sobre el tema general con objeto de ampliar el conocimiento personal. Se trata de orientarse e informarse suficientemente sobre el tema para formar un

punto de vista personal acerca de l, lo que le ayudar a superar el proble ma de la incapacidad para expresar de manera precisa la informacin que se necesita, que tan graves dificultades provoca en la comunicacin entre el usuario y el sistema. Se localiza informacin sobre el tema general, se lee para informarse y se relaciona nueva informacin con lo que ya se sabia. No obstante, la informacin encontrada raramente se acomoda sin problemas al estado de conocimiento previo, ya que frecuentemente la informacin obte nida de las diversas fuentes parece incoherente e incompatible. Esta situa cin suele provocar sentimientos de confusin, incertidumbre y duda, as co mo desaliento, sensacin de inadecuacin personal y frustracin con el sis tema. En algunos casos se puede producir el abandono de la bsqueda en esta etapa. La formulacin es el punto critico del proceso. A partir de la informa cin recopilada se identifican y seleccionan los conceptos e ideas que per miten construir un "foco" -segn la terminologa empleada por la autora-, esto es, una perspectiva centrada del tema, que se convierte de esta forma en algo ms personalizado. Aunque cabe la posibilidad de que ese "foco" pueda formarse de manera repentina, lo ms probable es que vaya emer giendo y constituyndose de manera gradual. Durante esta fase se produce un cambio muy significativo en los sentimientos, ya que se reduce la incerti dumbre y aumenta la confianza y la sensacin de claridad. La coleccin es la etapa del proceso donde la interaccin entre usua rio y sistema de informacin funciona ms efectiva y eficientemente. La tarea es recoger informacin relacionada con el tema ya enfocado. Se selecciona la informacin especficamente relevante a la perspectiva enfocada del tema, puesto que tras haber construido el "foco" la informacin general sobre el tema ya no es relevante. El usuario, con un sentido ms claro de la direccin, ya puede especificar la necesidad de informacin, lo que facilita una bs queda comprensiva de todos los recursos disponibles. Los sentimientos de confianza continan incrementndose en tanto que disminuye fuertemente la incertidumbre. Finalmente, en la fase de presentacin se produce la culminacin de la bsqueda. Los sentimientos unidos a esta etapa son el de alivio, adems del de satisfaccin si la bsqueda ha resultado bien o, por el contrario, el de decepcin si no ha sido asi. En resumen: en la de iniciacin se reconoce la necesidad de informa cin; en la de seleccin se identifica el tema general; en la de exploracin se busca y analiza informacin sobre el tema general; en la de formulacin se construye el "foco"; en la de coleccin se recoge informacin perteneciente al tema enfocado; y en la de presentacin se completa la bsqueda de infor-

macin. Las cuatro primeras etapas tienen el objetivo de llevar a cabo la for mulacin del problema, mientras que las dos ltimas se dirigen a solucionar el problema. Muy similar es el modelo descrito por Peter INGWERSEN [1992], basandose en un esquema desarrollado previamente por BELKIN y VIC KERY [1985] al que hace algunas modificaciones. Estudia el fenmeno de la bsqueda de informacin de una manera muy global, por lo que agrupa las diez etapas de que consta en tres grandes fases: pre-bsqueda de informa cin, bsqueda de informacin en sentido estricto y post-bsqueda de infor macin. La primera comprende: 1') el usuario tiene un problema que necesi ta solucionar; 2a) reconoce que su estado de conocimiento es inadecuado (anmalo) para solucionarlo; y 3a) intenta resolver su estado anmalo de conocimiento mediante la bsqueda de informacin en un sistema. Por su parte, la bsqueda propiamente dicha esta constituida por: 4') interaccin pre-bsqueda con un intermediario, ya sea humano o maquina; sa) formula cin de la estrategia de bsqueda, seleccin de la fuente y del enunciado concreto de bsqueda; 6') la actividad de bsqueda; 7') evaluacin inicial de los resultados; y sa) reformulacin del problema, de la estrategia y del enun ciado de bsqueda. Finalmente, la fase tras la bsqueda se divide en: 9') evaluacin de la informacin recuperada; y 1O') uso de la informacin. Lo ms destacable de este modelo es que sigue la corriente terica que pretende estudiar los fenmenos informativos de manera muy abarca dora y completa, por lo que describe el proceso de bsqueda de informacin desde que se origina la necesidad de buscar hasta el uso final que se hace de la informacin recuperada. Por otro lado, incluye de manera explicita una etapa de feedback, de manera que queda claro que la bsqueda de infor macin no tiene carcter esttico sino dinmico e interactivo. Por ltimo, vale la pena mencionar el modelo diseado por Marcia BATES [1986b] especficamente para la bsqueda por materias. Consta de tres componentes conceptuales: acceso, bsqueda y seleccin; no obstante, hay que sealar que la linea divisoria entre ellos no siempre est clara y, ade ms, que el usuario puede moverse adelante y atras entre cada una de las etapas que los componen. a) Acceso. Comprende dos fases: entrada y orientacin. La primera tarea del usuario es entrar en el sistema. Aunque esta es una fase muy breve resulta crucial, ya que si se encuentra muchas dificultades el usuario aban donar. Por tanto, es necesario que el usuario pueda introducirse en el sis tema con cualquier palabra o frase "razonable". En cuanto a la fase de orien tacin, se trata de que el usuario se acostumbre tanto a interactuar con el sis tema como al mundo intelectual de ste a travs de la exploracin del vaca-

bulario y las relaciones entre los trminos. Cuando se accede a un sistema de recuperacin de informacin es necesario orientarse y acostumbrarse a l antes de hacer la bsqueda propiamente dicha. Esta necesidad es la que ha provocado la tradicional tendencia de los usuarios a expresar sus necesida des de informacin de manera muy general, nada especifica. El origen de este comportamiento se encuentra en la necesidad de establecer una cone xin con el bibliotecario y de acostumbrarse a las reglas del juego, utilizando para ello una especie de maniobras de aproximacin. En un sistema auto matizado no es posible, sin embargo, la rpida adaptacin que se puede con seguir entre dos interlocutores humanos. De hecho, toda la capacidad de adaptacin se encuentra en el usuario, de manera que lo que el sistema automatizado debe proporcionar es permitir al usuario que consiga la mejor adaptacin y uso posibles del sistema. Este proceso de adaptacin es deno minado por Bates -muy amiga de las metaforas- como docking, ya que es similar al proceso suave y pausado con que un piloto maniobra hasta conse guir atracar un barco en un muelle. b) Bsqueda. Una vez que el usuario ha conseguido adaptarse al sis tema tanto desde el punto de vista operativo como lingistico-conceptual, es posible ejecutar la bsqueda propiamente dicha. e) Seleccin. Por ltimo, el usuario lleva a cabo la seleccin de los re gistros de los documentos que son relevantes a su necesidad de informacin. La razn de que hayamos prestado mucha mas atencin al primero de sus elementos conceptuales: el acceso, se encuentra en la propia opinin de Bates, para quien dichas fases han sido las grandes olvidadas en el diseo de los sistemas de recuperacin de informacin, en especial en el caso de los OPAC.

IV.2. El comportamiento del usuario


Los sistemas de informacin son herramientas para ayudar a las personas cuando buscan informacin. Para que su diseo sea efectivo debemos pri mero entender por qu las personas buscan informacin, cul es su com portamiento en dicha bsqueda y qu intentan conseguir con ese comporta miento [Belkin et al. 1990]. Una vez obtenida esa informacin ser posible establecer relaciones entre actividades e intenciones y entender las razones del xito o fracaso de aqullas, podremos identificar los problemas comunes y valorar si son especificas a un tipo de sistema o un tipo de usuario, o si los problemas son inherentes a la tarea de la recuperacin de informacin.

IV 2.1. Diferencias entre los usuarios


Los sistemas de recuperacin de informacin parecen haber sido diseados para un usuario prototipo, imaginario y annimo. Sin embargo, "todos los usuarios de sistemas de recuperacin de informacin no han sido creados igual", en palabras de Christine BORGMAN [1989]. Asi, los usuarios reales se enfrentan al reto de ajustarse a las condiciones preestablecidas. Unos tie nen xito en la superacin de los problemas que se encuentran, mientras que otros a duras penas consiguen sacar un mnimo partido del sistema para alcanzar sus objetivos. Es necesario, por tanto, entender por qu algunas personas tienen xito y otras fallan, con objeto de desarrollar mecanismos anticipatorios y flexibles para ayudar a los usuarios cuando utilizan un siste ma de recuperacin de informacin [SOLOMON 1993]. Esta necesidad ha dado lugar a una de las principales lineas de investigacin en este rea: la dedicada a relacionar las caractersticas personales de los usuarios (edad, capacidad para la memoria espacial, educacin, tipos de personalidad, esti los de aprendizaje, estatus acadmico, conocimiento de la materia, expe riencia con sistemas de recuperacin de informacin, etc.) con su rendi miento en la bsqueda. Uno de los estudios pioneros, y concretamente centrado en los OPAC, fue el realizado por MAITHEWS y LAWRENCE [1984] aprovechando los datos del estudio del CLR. Intentaron identificar las relaciones entre las tasas de xito/satisfaccin y las caractersticas personales de los usuarios. Los resultados obtenidos ponan de manifiesto que los factores ms determinan tes en la percepcin del xito por parte del usuario eran la frecuencia de uso del catlogo, de otros catlogos y de la biblioteca en si misma. Esto es, los usuarios ms habituales de catlogos en lnea y de la biblioteca eran los ms satisfechos con el sistema. Mas ambiciosas son las investigaciones -en este caso referidas a la bsqueda de informacin en general-, de Trudi BELLARDO [1985] y Christi ne BORGMAN [1986a], que llegan a conclusiones similares: las cualidades cognitivas de los usuarios afectan ms a la forma en que desarrollan el pro ceso de bsqueda que a los resultados de la misma. En realidad, la conclu sin ms importante a la que llegan estos estudios es que los usuarios bus can en formas extremadamente variadas y diferentes, incluso cuando lo hacen con bsquedas predeterminadas y en un entorno de laboratorio. Ms recientemente, Bryce ALLEN [1991] intent averiguar si el cono cimiento del tema produca una mejora en el rendimiento de la bsqueda. Los resultados, sin embargo, ponan de manifiesto que la memoria visual, el razonamiento lgico o la capacidad para la induccin mejoraban el uso del catlogo, pero no el conocimiento del tema. En su opinin, esto se debe al

sistema de valor igualitario impuesto por los bibliotecarios (todos deberan ser capaces de hacer el mismo uso efectivo del catlogo), que ha afectado al diseo del sistema y ha servido como impedimento para el usuario que conoce el tema. En concreto, su investigacin demuestra que los usuarios con alto conocimiento del tema introducen ms expresiones de bsqueda y un vocabulario ms variado que los que tienen poco conocimiento, pero las estrategias ms ricas no consiguen mejores resultados en la recuperacin. Sugiere que el vocabulario controlado utilizado en las bibliotecas permite al usuario con poco conocimiento realizar una bsqueda razonablemente buena, pero no ayuda a que la bsqueda se mejore mediante la utilizacin de un vocabulario ms rico. En otro estudio parecido, MARCHIONINI et al. [1993] han comparado la forma de buscar de dos tipos predefinidos de usuarios: expertos en bs queda de informacin en sistemas automatizados y expertos en el rea tem tica concreta. Los expertos en la materia se centraban en las respuestas a los pro blemas. Entendan rpidamente el problema y tenan expectativas definidas acerca de las posibles respuestas. Solan utilizar terminologa tcnica para formular las demandas y dedicaban mucho tiempo a examinar los resultados. Empleaban stos para reflejar el progreso de la bsqueda y llevaban a cabo juicios de relevancia con relativa rapidez. Por su parte, los expertos en bs queda de informacin se centraban sobre la expresin del problema, es decir, la formulacin de la bsqueda. Dedicaban gran atencin a la estructu ra de la base de datos y a los procedimientos y tcnicas para formular y refi nar las bsquedas. Examinaban el texto con rapidez para localizar trminos adicionales y conseguir un mejor entendimiento del problema. Controlaban el progreso de la bsqueda cuidadosamente y hacan juicios de relevancia pro visionales que verificaban mediante anlisis adicionales. En resumen, los expertos en una materia se dirigen ms al contenido del problema mismo que a la forma en que lo van a expresar mediante una demanda al sistema. Los expertos en bsqueda de informacin, por el contrario, se centran ms en las cuestiones metodolgicas, por lo que su proceso de bsqueda es ms cui dado y controlado, utilizando su experiencia para conseguir mediante el uso del sistema un buen conocimiento del rea temtica con el que no contaban previamente. En el caso que a nosotros ms nos interesa, el de los OPAC, la gran mayora de los usuarios no pertenece a ninguno de los dos grupos, es decir, ni son expertos en la materia ni tienen gran experiencia y conocimiento de la bsqueda en sistemas de recuperacin de informacin. La solucin pro puesta por el propio Gary MARCHIONINI [1992] -y que, como veremos mas

adelante, suscribimos totalmente- consiste en que los interfaces de usuario permitan una bsqueda de informacin rnenos rebuscada y tcnica y sumi nistren a tos usuarios la suficiente informacin como para que alcancen un adecuado conocimiento del rea temtica sobre la que desean buscar. Para ello el browsing parece ser la respuesta ms apropiada, ya que tiene un carcter esencialmente natural al reducir el esfuerzo cognitivo mediante el traspaso de la mayora del peso de la bsqueda al sistema perceptivo.

IV2.3. Los modelos mentales


Otra interesante rea de investigacin respecto al comportamiento usuarios es la dedicada a tos denominados "modelos mentales". de tos

De manera paralela, otros estudios han intentado demostrar que se pueden mejorar tos resultados de la bsqueda si se proporciona al usuario la formacin adecuada para que desarrolle un modelo mental que tes ayude a generar mtodos de interaccin con el sistema, depurar errores y seguir la pista de su posicin en el sistema. El experimento, llevado a cabo por Chris tine BORGMAN [1986a]. consista en facilitar a tos usuarios dos tipos de for macin: una de carcter procedimental (basada en la mecnica del sistema) y otra de carcter conceptual (basada en una explicacin del sistema y utili zando la analoga con el catlogo manual). Los resultados no fueron excesi vamente concluyentes en el sentido de que proporcionar dicho modelo men tal asegurara un mejor rendimiento en la recuperacin. La culpa de que tos resultados no fueran satisfactorios se encuentra en la metodologa utilizada, ya que el experimento no explora la forma en que tos usuarios conceptuatizan activamente cuando interactan. A tos usuarios se tes da una serie de preguntas predeterminadas, por lo que es posible eli minar algunos aspectos de la tarea de recuperacin de informacin y exami nar nicamente el proceso de emparejamiento, que es lo nico que real mente se evala. El hecho de que la complejidad del sistema pudiera inter ferir y ocasionara representaciones inadecuadas no fue tenido en cuenta. Por otro lado, utilizar la analoga del catlogo manual tampoco es acertado, dadas sus diferencias con tos catlogos en lnea. Hubiera hecho falta una metodologa de estudio que examinara el proceso de bsqueda de una manera ms global, menos restringida, para que tos resultados pudieran con siderarse significativos. En definitiva, pueden distinguirse tres modelos diferentes [ROGER y KOLMAYER 1994]: a) El modelo mental. Es la idea que el usuario se hace del sistema, de su estructura, de sus relaciones internas y de su funcionamiento. Este modelo es ms o menos incompleto, por lo que hay grave ries go de error cada vez que el usuario debe inferir acerca del resulta do que producir una determinada accin. b) El modelo conceptual. El seguido por el diseador que ha construi do el sistema. Suministra una representacin adecuada, coherente y completa de la estructura del sistema. e) El modelo del usuario. Es aquel a travs del que el sistema se ima gina o representa al usuario. Los OPAC, dado que son sistemas de informacin dirigidos a usuarios finales, cuyas caractersticas personales y necesidades de informacin son extremadamente variadas, deben incorporar un importante grado de adapta-

El proceso que sigue un usuario para crear un modelo mental del cat logo en lnea es bsicamente un proceso de reconstruccin del modelo men tal del diseador del sistema de informacin. El modelo mental del diseador, con todas sus valoraciones acerca del propsito y mtodos de recuperacin de informacin, se va mostrando al usuario a travs de una parte del siste ma: el interfaz hombre-mquina [MORAN 1981]. Cuando el usuario interac ta con el sistema va construyendo un modelo mental del sistema como herramienta de solucin de problemas. El usuario, de manera intuitiva, reconstruye el modelo mental del diseador del proceso de recuperacin de informacin cuando utiliza el catlogo en lnea; es decir, usando el sistema como nica pista, intenta descifrar el modelo mental del diseador del pro ceso de bsqueda. Esto supone que el modelo mental del usuario slo se forma una vez que ha utilizado el sistema, no antes, y este proceso de for macin del modelo contina si el usuario sigue ms sesiones de bsqueda en el sistema. Desgraciadamente, estos modelos mentales creados por el usuario suelen estar poco ajustados a la realidad, ya que son muy numerosas sus ideas errneas acerca del sistema, en especial de su cobertura [CONNELL 1995] y de la utilidad y medios para la bsqueda por materias [STEINBERG y METZ 1984]. Hay algunos estudios experimentales que demuestran la relacin directa entre las representaciones mentales incorrectas y tos problemas con la bsqueda de informacin en los OPAC. Uno de ellos es el llevado a cabo por JANOSKY et al. [1986] mediante la tcnica de recoger el pensamiento en voz atta de los usuarios cuando realizaban una serie de bsquedas normali zadas. Este estudio tambin ponia de manifiesto el efecto acumulativo de una idea errnea cuando el usuario intenta buscar e interpretar informacin adicional en tos intentos por recuperarse de un error.

bilidad. Para ello el sistema debe ser capaz de formar una imagen o modelo de las necesidades, experiencia y capacidad del usuario, lo que contribuira a superar los problemas derivados de las diferencias y desajustes entre los dos primeros modelos: el mental y el conceptual.

IV.3. El nuevo paradigma: sistemas basados en el dilogo hombre-mquina


Desde hace algunos aos el modelo clasico de recuperacin de informacin esta siendo puesto en duda. Este modelo se basa en la certidumbre y el orden, y considera la tarea de buscar informacin desde la perspectiva del sistema, de manera que los usuarios son considerados meros receptores de informacin pasivos e independientes de la situacin. Bajo este paradigma -denominado habitualmente bibliografico- la demanda de informacin es tra tada como una concepcin nica y simple de un problema que permanece invariable a lo largo de todo el proceso de bsqueda. Aunque todos estos presupuestos tericos son tiles para simplificar la investigacin, las bsquedas en la vida real no suelen seguir este patrn. Por ejemplo, ya hemos visto con anterioridad que la bsqueda de informacin, especialmente en sus primeras etapas, esta llena de incertidumbre, confu sin y ansiedad. Tambin hemos comprobado que las necesidades de infor macin no suelen ser algo perfectamente definido al principio del proceso de bsqueda, que permanece sin cambios hasta el final, sino que tienen en la realidad un caracter dinamico, de manera que van sufriendo modificaciones a medida que el usuario interacta con el sistema. En un entorno manual, las bsquedas reales suelen comenzar simple mente con un trmino de un tema mas amplio o con una referencia relevan te, movindose a partir de ah a travs de muy diversas fuentes. Cada nueva informacin que se localiza proporciona nuevas ideas y direcciones para seguir y, por tanto, una nueva concepcin de la demanda. En cada etapa no slo se modifican los trminos usados para la equiparacin, sino que en rea lidad es la propia bsqueda la que esta cambiando continuamente en todo o en parte, por lo que se denomina bsqueda en desarrollo. Ademas, en cada etapa, con cada diferente concepcin de la bsqueda, el usuario puede iden tificar informacin til y referencias, de manera que la demanda se satisface no slo por el conjunto final recuperado sino por la serie de referencias con cretas y trozos de informacin seleccionados a lo largo de la bsqueda [Saracevic y Kantor 1988]. Este tipo de bsqueda de informacin es denominado por Marcia BATES [1989a] como "berrypicking", por analoga con la recogida de aran-

danos, que se va haciendo uno a uno al no encontrarse agrupados en raci mos. En su opinin, el verdadero modelo de bsqueda de informacin -apli cable a los sistemas de informacin automatizados- debe incluir una deman da de informacin de naturaleza cambiante, en desarrollo, y un proceso de bsqueda que sigue un patrn berrypicking (se recoge poco a poco, en lugar de llevar a un conjunto recuperado nico). Otra interesante visin del proceso de bsqueda nos lo proporciona Jean TAGUE [1989], que lo define como una "negociacin". Tanto el usuario como el sistema estn buscando informacin: el usuario busca informacin sobre el sistema, sobre la forma en que describe los materiales que pueden ser relevantes para las necesidades del usuario, en tanto que el sistema busca informacin sobre el usuario, sobre la forma en que describe esos materiales que deberan ser recuperados. Como resultado se produce un dialogo, en el que el usuario hace ciertas conjeturas acerca del lenguaje del sistema y sobre la base de ste construye una estrategia de bsqueda. Por su parte, el sistema hace conjeturas sobre lo que el usuario quiere en res puesta a la estrategia y, en la respuesta, revela la forma en que describe ite mes de posible inters. Esta respuesta puede modificar la percepcin del usuario acerca de cmo describe el sistema los itemes relevantes y, como resultado, puede modificar la demanda. Esta secuencia de entradas de datos y respuestas del sistema constituye una negociacin para llegar a un acuerdo. Toda negociacin requiere un intercambio de informacin, de manera que cada parte entienda lo que la otra tiene en mente. Ademas, debe haber voluntad por ambas partes de modificar sus posiciones iniciales para facilitar la adaptacin. Si estas condiciones se cumplen es posible desarrollar una negociacin equHibrada en la que ambas partes dan y reciben. Por desgra cia, es muy poco probable que se consiga en los OPAC actuales, ya que siempre es el usuario el que da mas de lo que recibe, dado que casi ningu no de los sistemas existentes incorpora prestaciones que permitan un ver dadero dialogo con el usuario, lo que facilitara que el sistema aprendiera el lenguaje del usuario, es decir, construyera lo que hemos denominado un modelo del usuario. Esta posicin de desventaja del usuario respecto al sistema ya haba sido advertida por ODDY [1977] o por BELKIN [1980]. Se preguntaban por qu es necesario para el usuario encontrar una forma de representar la nece sidad de informacin mediante una pregunta formal entendible por el siste ma. Por qu no es el sistema el que hace posible que el usuario pueda expresar su necesidad de manera directa con su lenguaje habitual, en lugar de a travs de una representacin artificial de la necesidad para ser usada por el sistema?

Para intentar superar este problema, Robert Oddy propuso la utiliza cin de un sistema de recuperacin basado en el dilogo hombre-mquina en vez de en la simple equiparacin. El programa que l desarroll -deno minado THOMAS- constituye el primer intento de basar un sistema de recu peracin en modelar las necesidades del usuario a travs del dilogo hom bre-mquina, por lo que vamos a analizarlo brevemente como ejemplo de sistema que rompe con el modelo terico tradicional. Este programa, que es el fruto de su tesis doctoral [ODDY 1975], incor pora ideas sobre la naturaleza de la interaccin que tiene lugar entre el usua rio y el sistema y sobre el modelo de necesidades del usuario construido por el sistema. En su opinin, su propuesta representa un tipo diferente de enfo que sobre la naturaleza de la interaccin entre usuario y sistema, que pre tende facilitar la recuperacin mediante la conversacin o dilogo entre ambas partes, de manera que se parezca lo ms posible a la comunicacin personal entre mentes humanas a travs de una conversacin [ODDY 1977]. Al igual que lo hiciera algo ms tarde Nicholas Belkin con su "estado anmalo del conocimiento" [BELKIN 1980], Oddy haba constatado que los usuarios raramente acuden a un sistema de recuperacin de informacin con una demanda bien formulada. La gran mayora de ellos encuentran dificulta des para expresar sus necesidades en una demanda bien formulada -o al menos en un forma que sea efectiva cuando interroga la base de datos-. Adems, not que la interaccin del usuario con una fuente de informacin (como una biblioteca, por ejemplo) era muy a menudo heurstica e interacti va: poda empezar a buscar mediante browsing, y despus de haber identifi cado algunas referencias por ese medio, identificar otras fuentes o temes desde el material citado en stos. Por tanto, consideraba que la necesidad de informacin es una entidad dinmica, no algo que permanece esttico o sin cambios durante el transcurso de la bsqueda. Con estas ideas como punto de partida, Oddy dise su sistema de manera que en ningn momento se le pidiera al usuario que proporcionara una demanda formalmente expresada. En su lugar, el usuario interactuaba con el sistema mediante una serie de pantallas que le guiaban a travs del dilogo y que idealmente le llevaran a un resultado satisfactorio en la identi ficacin de documentos relevantes. No obstante, para que comenzara el di logo era necesario que el usuario tomara la iniciativa al menos una vez, para lo que bastaba con que introdujera ttulos de documentos, trminos de mate ria o autores que reflejaran lo que le interesaba. A partir de ah, THOMAS proceda a identificar un punto en la base de conocimiento del sistema que tuviera una similitud textual con el trmino o trminos introducidos. Si haba documentos asociados con los trminos, el programa mostraba las referen cias para que el usuario las examinara. En cada caso se le peda que indi-

cara si el documento era de su inters mediante respuestas de "s" o "no", para seleccionar o rechazar trminos mostrados en la representacin de los documentos y para introducir algunos trminos adicionales de materia, auto res, etc. Todas las respuestas eran opcionales, de manera que el usuario podia examinar otras referencias sin hacer ningn tipo de juicio sobre las referencias que se le haban mostrado con anterioridad. Para identificar y seleccionar las referencias que se mostraban al usuario, THOMAS empleaba una "imagen" de las percepciones y necesida des del usuario -un modelo del usuario, segn la terminologa que hemos uti lizado previamente-, que se iba refinando y modificando en el curso de la interaccin con el usuario mediante la adicin de las referencias y trminos seleccionados y la eliminacin de los rechazados. Por lo que se refiere a la base de datos, se estructuraba por medio de una red de asociaciones entre los documentos, autores y trminos de mate ria. Cada uno de estos elementos se representaba por un punto y las aso ciaciones entre ellos por lneas, de manera que la estructura de conocimien to del programa estaba constituida por una red de nodos interconectados, es decir, tena un aspecto muy similar al de un sistema hipertexto. Aunque las pruebas a las que fue sometido slo fueron satisfactorias con colecciones pequeas, debido a los problemas logsticos que se originaban si el nmero de asociaciones era muy grande, el programa diseado por Oddy constituye un magnfico ejemplo de cmo debe ser un sistema que refleje el nuevo para digma de la recuperacin de informacin. THOMAS tiene como premisas bsicas el reconocimiento de que cada usuario es distinto, que sus necesi dades de informacin no son algo claro y difano y que el proceso de bs queda es algo interactivo, evolutivo, no un simple proceso de emparejamien to o equiparacin. Como seala David Ellis [1990], Oddy fue capaz de acep tar sin dudarlo una premisa que sera considerada como anatema por la mayora de los investigadores que utilizaban el modelo tradicional: que el mismo usuario en el curso de la misma interaccin juzgara un mismo docu mento como relevante y como irrelevante en un breve lapso de tiempo. THO MAS ha sido desarrollado posteriormente hasta convertirse en PThomas [Oddy y Balakrishnan 1991] y, aunque han pasado unos veinte aos desde su propuesta original, sus ideas siguen teniendo vigencia, por lo que son seguidas por numerosos sistemas actuales.

IV.4. Browsing
La aceptacin del nuevo modelo terico de la recuperacin de informacin tiene entre sus consecuencias inmediatas la aceptacin del browsing como una estrategia bsica e imprescind'ible para la bsqueda de informacin,

especialmente en sistemas dirigidos a usuarios finales, cuyas necesidades de informacin suelen estar poco o mal definidas al principio. Sin un inter mediario que pueda ayudarle a clarificar y formular el problema, el usuario se vera obligado llevar a cabo una larga y compleja modificacin de su estrate gia de bsqueda original a travs de la interaccin con el sistema, para lo que el empleo del browsing es sin duda la mejor solucin.

IV 4.1. Concepto y naturaleza


Uno de los mecanismos naturales que de manera habitual utiliza cualquier persona para tratar con estimulas ambiguos y poco estructurados es el com portamiento denominado browsing. De ah que se hayan intentado incorpo rar a los interfaces de los sistemas de informacin unas prestaciones que ayuden a los usuarios a hacer uso de sus habilidades naturales de browsing para tratar y navegar a travs de los sistemas de informacin automatizados. Aunque el browsing ha sido observado e investigado en el contexto general de la bsqueda de informacin en la biblioteca y ha asumido cada vez mas una parte integral e importante en la interaccin hombre-maquina, el concepto y naturaleza del browsing no ha sido estudiado de manera siste matica y, por tanto, no ha sido bien entendido [CHANG y RICE 1993]. Una de las excepciones es Marcia BATES [1979], que introduce el concepto de tacticas para la bsqueda de informacin y solucin de proble mas. Una de las diecisiete "idea tactics" para encontrar y usar informacin es lo que ella denomina "wandering" (deambular, recorrer...), definida como el movimiento entre los diferentes recursos informativos, siendo receptivo a las fuentes alternativas y nuevas ideas de bsqueda provocadas por los mate riales que nos van apareciendo. Ella resalta la importancia de los descubri mientos o hallazgos fortuitos que pueden hacerse de esta forma, y la influen cia de la proximidad fsica de los temes que se examinan. Otro de los primeros estudiosos y defensores del browsing fue Char les HILDRETH [1982], que considera que las personas utilizan este mtodo de bsqueda de informacin cuando sus criterios de inters no estan defini dos de manera precisa o estan abiertos y sujetos a redefinicin. Mas recientemente, David ELLIS [1989] ha construido un modelo del comportamiento de la bsqueda de informacin, en el que el browsing apa rece como uno de sus seis componentes. En su opinin, se trata de una bs queda de caracter semi-dirigido en un area de inters potencial, que consta de dos elementos: familiarizacin y diferenciacin. La primera permite al usuario conocer las fuentes de informacin de ese area, lo que hay disponi ble. La segunda tiene lugar cuando el usuario desarrolla un conocimiento de las diferencias entre las diversas fuentes, esto es, una apreciacin de las diferencias entre lo que hay disponible.

La propia Marcia BATES [1989a], y encuadrada en su modelo berrypicking, incluye la tcnica de bsqueda denominada area scanning, que con siste en ojear los materiales impresos situados en un area (fsica o intelec tual) donde se han encontrado cosas interesantes con anterioridad. Se utili za habitualmente con los libros ordenados por el esquema de clasificacin bibliotecaria en los estantes de la biblioteca, ya sea siguiendo la ordenacin exacta del esquema de clasificacin mediante la lectura lineal a lo largo de los estantes, o bien -y mas frecuentemente- no siguiendo de manera deli berada ese orden. En la practica, uno de los aspectos mas tiles de este tipo de bsqueda es que se puede consultar visualmente de manera aleatoria el tema de inters tal y como esta situado en los estantes, lo que representa una ruptura deliberada del orden de clasificacin convencional. En su opinin, la lectura de area constituye la forma mas autntica de browsing en un entorno manual. En este sentido, hay dos cuestiones basicas a tener en cuenta: 1) El usuario esta expuesto a una variedad de areas relacionadas, algunas de las cuales, dado que se va de aqui para alla, pueden estar rela cionadas en formas inesperadas, lo que da lugar a descubrimientos o hallaz gos fortuitos (serendipity). 2) El usuario puede mirar directamente en el texto completo de los materiales. Hojeando las paginas y leyendo un pasaje aqu o alla, el usuario consigue una rapida visin global del sentimiento o caracter del autor y de su enfoque o mtodo. Cualquiera que sea ese sentimiento, es practicamente inaccesible a travs de cualquier clasificacin o descripcin por materias. El primero de estos dos aspectos, es decir, su papel de pensamiento creativo e innovador ha sido destacado por casi todos los autores que lo han estudiado. Por ejemplo, APTED [1971] caracteriza el browsing como una actividad poco clara, poco ntida, que provoca nuevos pensamientos median te la exposicin del usuario a una amplia variedad de estimulas, de manera que el proceso de navegacin a travs de la informacin es quiza mas valio so en si mismo que conseguir una respuesta. En una linea similar, BAWDEN [1986], DAVIES [1989] y O'CONNOR [1988] destacan que el descubrimiento de informacin durante el proceso de bsqueda crea nuevas estructuras de conocimiento. La diversidad dentro del concepto de browsing ha sido detectada por todos los investigadores que han estudiado su naturaleza. Utilizando como base la presencia o ausencia de propsito u objetivo o la seriedad o formali dad de la actividad, la practica totalidad de ellos coinciden en establecer tres tipos de browsing, aunque con denominaciones diferentes.

Entre ellos se encuentra Levine [1969], que propone tres formas de browsing: a) Browsing aleatorio: A travs de una coleccin desconocida. b) Browsing cuasi-aleatorio: A travs de un area de un edificio o una coleccin previamente explorada. e) Browsing semi-determinista: Dentro de una area limitada fsica o intelectualmente. Herner [1970], por su parte, distingue entre: a) Browsing dirigido: Cuando se tiene en mente un objetivo claro. b) Browsing no dirigido: No existe un objetivo claro y posiblemente slo se pretende pasar el tiempo.
e) Browsing semi-dirigido: De caracter intermedio entre los dos ante

algo de inters. De todas formas, esta cuestin esta lejos de estar resuelta [BAWDEN 1993]. El browsing si se ha distinguido y contrapuesto con cierta claridad a la bsqueda en sentido estricto (querying). Esta distincin resulta bastante evi dente en los sistemas de recuperacin automatizados, que requieren una clara expresin de la demanda para que una bsqueda se lleve a cabo, de forma que si aqulla no pudiera ser construida se recurrira al mtodo del browsing. No obstante, esta dicotomia es mas aparente que real, ya que no esta presente con tanta claridad ni en los sistemas manuales ni en los siste mas automatizados mas modernos; quiza slo resulta diafana en los prime ros sistemas automatizados (por ejemplo, los OPAC de primera y segunda generacin) [HILDRETH 1989a].

IV4.2. Importancia y ventajas


Aunque el browsing ha sido reconocido de manera general por los usuarios como el medio mas comn para encontrar fuentes de informacin [Baker 1986], ha sido una actividad menospreciada en buena parte de la comunidad bibliotecario-documentalista. Ha habido una importante tendencia de los pro fesionales a considerar que el browsing se utilizaba por los usuarios debido a que no haban sido formados adecuadamente para utilizar sus recursos de informacin, ademas de considerar que su existencia era un claro y obvio indicador de las insuficiencias de los mtodos de acceso por materias dispo nibles. El criterio de Donald URQUHART [1976] es muy representativo de esta corriente de opinin: browsing es sin duda una actividad til para un estudiante que no sabe lo que quiere pero debe tener un libro de manera inmediata. Es el browsing una actividad sensata en una biblioteca de inves tigacin? Es el browsing un superviviente de una antigua costumbre o su supervivencia se debe a la ignorancia o pereza bibliografica? En contesta cin, WHITTLE [1977] ofreci una tercera y atinada posibilidad: el browsing sobrevive porque los que lo practican lo encuentran til. Esta tendencia a considerarlo como una parte menor del comporta miento general de bsqueda de informacin puede tener su origen en que por su propia naturaleza es un comportamiento muy dificil de estudiar for malmente. De hecho, se sabe muy poco acerca de cuestiones basicas tales como cuales son los factores que lo estimulan, cual es la tasa de xito de las diversas formas de browsing o cmo podra definirse lo que constituye "xito" en este contexto. No obstante, esta situacin ha cambiado sustancialmente a partir de la segunda mitad de los ochenta con trabajos como el de Micheli ne HANCOCK [1987] o el de David ELLIS [1989], que han supuesto un cam bio de tendencia.

riores, consiste en el analisis habitual y deliberado de aquellas fuen tes que se consideren que probablemente sean tiles. Es el mas fre cuente en la practica. Por ltimo, tras definirlo de manera muy pragmatica como "el arte de no saber lo que se quiere hasta que se encuentra", COVE y WALSH [1988] tambin desarrollan una taxonoma en tres tipos: a) Browsing de bsqueda: Una actividad fielmente dirigida y estructu rada, donde el objetivo deseado es conocido pero los criterios de bsqueda son imprecisos. b) Browsing de propsito general: Se consultan unas fuentes de infor macin concretas regularmente, ya que es muy probable que con tengan itemes de inters.
e) Browsing de hallazgo fortuito: Actividad puramente aleatoria, deses

tructurada y no dirigida, sin un objetivo consciente en mente. En cualquier caso, es necesario advertir que durante un mismo proce so de bsqueda es posible pasar de un tipo de browsing a otro [Belldn et al. 1993]. S analizamos todas estas concepciones de browsing es posible defender que todo el browsing es, en cierto sentido al menos, intencionado. Siempre hay un objetivo o propsito en mente, aunque puede estar vaga mente expresado. En unos casos el resultado a conseguir estara claro, pero no la forma de encontrarlo, y en otros consistira simplemente en encontrar

Una de las cuestiones que es qu ventajas concretas se consiguen browsing a un sistema automatizado ra KWASNIK [1992]1as ha resumido

necesario analizar de manera previa es con la incorporacin de prestaciones de de recuperacin de informacin. Barba en seis:

David BAWDEN [1993], por su parte, considera que son dos sus ven tajas nicas y especificas: a) La capacidad para encontrar analogas, conexiones y nuevas line as de pensamiento, esto es, para estimular el uso creativo e inno vador de las fuentes de informacin. b) Constituye una forma simple y amigable de acceso a las fuentes de informacin, en especial para usuarios inexpertos y ocasionales. En el contexto de los OPAC, esta segunda ventaja es sin duda la ms significativa, ya que permite reducir al mnimo la necesidad de formular una demanda bien expresada y de utilizar los elementos ms sofisticados y com plicados del lenguaje de interrogacin, desde el momento en que cualquier forma de browsing se basa en un acceso inicial muy simple a la fuente de informacin, un anlisis de itemes y alguna forma de seguimiento igualmente sencilla.

1) Browsing no es una actividad pasiva. El usuario hace uso de sus propias estrategias y decide la direccin, ritmo y profundidad de la bsqueda. Esta forma de compartir el proceso entre el usuario y el sistema tiene la ventaja de que hace las bsquedas ms dinmicas y flexibles. 2) Las decisiones y estrategias que lleva a cabo el usuario durante el browsing pueden ser utilizadas como un valioso feedback en los sis temas con interfaces que lo permiten. 3) El browsing libera al usuario de tener que formular una estrategia de bsqueda precisa, aprovechndose del principio de que es ms fcil reconocer lo que es interesante o til que especificarlo con antela cin. 4) Si el sistema proporciona un espacio bien conectado y ayudas nave gacionales, mediante browsing es posible explorar la informacin de un sistema sin tener conocimiento previo de su contenido. De esta forma, en este tipo de sistemas puede ser inapreciable para los usuarios el introducirse en reas temticas nuevas o desconocidas. 5) El usuario tiene la oportunidad de generar nuevos puntos de vista con nuevas e insospechadas combinaciones o agrupaciones de informacin. 6) Un entorno "browsable" aprovecha el hecho de que la informacin se presente en su contexto. Este ayuda a reducir la ambigedad y adems proporciona informacin que ya no necesita ser suministra da expresamente por el diseador del sistema en alguna otra forma. En el contexto especifico de los OPAC, y tras analizar tres interfaces de OPAC comerciales, John AKEROYD [1990] seala cuatro razones por las que los usuarios utilizan el browsing en sus bsquedas de informacin: a) para corregir errores de la introduccin (por ejemplo, haciendo browsing hacia atrs hasta la posicin correcta); b) para establecer el alcance y con tenido de la terminologa (haciendo browsing en los diversos ndices de materia); e) para expandir el mbito de los documentos recuperados (por ejemplo, haciendo browsing en una lista clasificada jerrquica); y d) para especificar un subconjunto de un conjunto recuperado en una bsqueda boo leana.

IV.4.3. Fuentes impresas vs. fuentes automatizadas


Hay diferencias entre el browsing en un sistema informtico y en uno impre so. El primero es bsicamente cognitivo, mientras que el segundo tiene un mayor componente fsico (andar, girar la cabeza, tocar...). Una situacin tradicional y tipica de bsqueda mediante browsing es aquella en la que un usuario se enfrenta a una coleccin impresa de consi derable tamao y no muy bien organizada, cuyos materiales son cogidos, examinados, revisados, hojeados, etc. por parte del usuario. Parece haber algo en la naturaleza de la interaccin entre los volmenes impresos y sus usuarios que anima de manera casi intuitiva al browsing [BAWDEN 1993]. A primera vista, los sistemas automatizados parecen carecer de esta propie dad, por lo que numerosos autores han argumentado durante aos que las fuentes impresas son mucho ms adecuadas que las automatizadas para lle var a cabo acciones de browsing. Un buen representante de esta postura es Saul HERNER [1970], que considera que las posibilidades de browsing se ven muy disminuidas en cuanto cualquier mecanismo se interpone entre la coleccin y el usuario, impidiendo su relacin directa. Con posterioridad, esta postura ha sido segui da por otros autores que opinan que la idea de un browsing automatizado es sencillamente un disparate [NORTON 1984]. En realidad, el origen de estas actitudes se encuentra en las importantes limitaciones que presentaban los primeros sistemas de informacin automatizados, cuya flexibilidad y capaci dad para la interaccin eran muy escasas.

Uno de los factores que ha animado a usar el browsing en sistemas automatizados es la supresin del problema de su coste econmico. Por defi nicin, la bsqueda mediante browsing supone dedicar ms tiempo a ella. Los servicios tradicionales de bases de datos en linea eran muy poco propi cios para hacer browsing en ellos, dado el importante coste asociado con el tiempo de conexin. La aparicin de las bases de datos en CD-ROM acab con esta situacin, ya que el tiempo empleado en la bsqueda no tenia influencia en su coste econmico. Por otro lado, al estar las bases de datos en CD-ROM dirigidas a usuarios finales, sus interaces eran mucho ms apropiados para soportar el browsing. Lo que de verdad determinada que una fuente de informacin sea apta o no para el browsing no es su carcter impreso o automatizado, sino el hecho de que la organizacin de la informacin que contiene sea la adecua da. Como seala David Ellis [1989], lo que permite que el browsing sea satis factorio en un sistema de informacin es que la informacin relacionada est situada junta o conectada. No obstante, hay que reconocer que los sistemas automatizados toda va no han conseguido proporcionar algunas de las caractersticas intrnse cas del browsing. Por ejemplo, los usuarios prefieren ver fsicamente los documentos que usar listas de ellos, tal y como ha demostrado Sharon BAKER [1986]. En una linea similar, Marcia BATES [1989a] seala que una de las ventajas del browsing consiste en leer el texto de los documentos no de manera secuencial, sino hojeando o saltando de un lugar a otro de ellos hasta conseguir una impresin o sensacin general. Sin embargo, todava no es habitual que los OPAC provean acceso al texto completo de los docu mentos, sino nicamente a sus sustitutos (resmenes, trminos de indiza cin, ttulos, etc.). Otra de las caractersticas esenciales del browsing es el movimiento fsico entre la coleccin. Para proporcionarlo se han diseado sistemas que reproducen mediante interaces grficos de usuario el entorno espacial de una biblioteca. Las salas, estantes, libros y servicios son reproducidos mediante la simulacin de un entorno tridimensional, donde los usuarios pue den interactuar con las colecciones de documentos como si lo estuvieran haciendo en una biblioteca fsica. Este tipo de sistemas experimentales son cada vez ms numerosos, por lo que ms adelante comentaremos algunos de ellos.

cisin para incorporarlo al diseo de sistemas de informacin. La nocin de browsing se toma a menudo como un comportamiento evidente por si mismo, como algo obvio, pero no hay acuerdo acerca de su definicin o de su inte raccin con otros aspectos de uso del sistema. Por tanto, es necesario des cubrir qu hace realmente la gente y qu consiguen funcionalmente cuando efectan browsing. Con este objetivo en mente, Barbara KWASNIK [1992] ha configurado un modelo descriptivo que especifica cules son las funciones tpicas del browsing como mtodo de bsqueda de informacin, y que puede servir de base para el diseo de sistemas de informacin. En su estudio, KWASNIK considera que el browsing es fundamental mente un movimiento en un espacio conectado. Con objeto de conseguir este movimiento, las personas llevan a cabo determinadas acciones: cam bian su mirada, alteran su posicin, pasan por alto cosas, echan un vistazo a determinadas cosas, retroceden, se paran o hacen una pausa y responden a fenmenos que les resultan interesantes. Una funcin de browsing estara constituida por un conjunto o grupo de algunas de estas actividades. Tras estudiar una serie de casos, ella ha identificado una lista de funciones a las que se recurre con regularidad: a) Escoger un lugar de partida: El usuario se sita en una posicin que le permita alcanzar buenos resultados. b) Orientacin: Se aprende la estructura y contenido del entorno. Esto no sucede una sola vez y al principio, sino que se desarrolla y modi fica a medida que progresa la actividad. e) Marcar el lugar: Marcar una posicin para una potencial considera cin posterior. Los indicadores de lugar fsicos (por ej. poner el dedo entre unas pginas) o mentales (memorizar una marca o seal) son experimentales y pueden ser objeto de cambio cuando nuevas experiencias modifiquen o reestructuren los objetivos e intereses. d) Identificacin: El proceso de browsing se basa en el reconocimien to de itemes potencialmente interesantes o definitivamente no inte resantes. La decisin de seguir ms adelante o parar depende de la habilidad de la personas para resumir el contenido probable de una posicin concreta. e) Resolucin de anomalas: Las anomalas, es decir, cosas que son confusas, poco claras o que no parecen adecuadas, ocurren tanto en la estructura como en el contenido del entorno del browsing. El importante esfuerzo por resolverlas, incluso cuando el tem que est siendo resuelto no parece ser de gran inters, est en evidente con sonancia con el hecho de que los usuarios crean estructuras y se orientan a si mismos a medida que avanzan.

IV4.4. El comportamiento de browsing


Aunque el browsing es uno de esos comportamientos intuitivamente simples que todos usamos, resulta bastante dificil de definir con una adecuada pre-

f) Comparacin: Los usuarios hacen comparaciones a todos los nive les: comparan un tem con otro, el entorno como un todo con otros entornos, y diversos aspectos de la estructura del entorno de browsing. Estas comparaciones sirven para orientar, identificar y solidifi car los propsitos y objetivos. g) Transiciones: Son los movimientos o pasos desde una posicin a otra, porque se ha conseguido suficiente informacin, porque no interesa, etc.

No obstante, la estructura o guia que se ofrece mas frecuentemente en los sistemas automatizados para ser objeto de browsing es la lista alfa btica (de nombres de autores, encabezamientos de materia, palabras del ttulo, etc.), ya sea desde el principio o a partir del punto que el usuario ha seleccionado en su bsqueda. Evidentemente, estas listas pueden ser reco rridas arriba y abajo hasta encontrar algo que nos interese, pero la premisa en la que se basan -las palabras con la misma raz tienen significados simi lares- tiene una validez muy limitada. La practica totalidad de los sistemas actuales que permiten el browsing tienen el examen de listas alfabticas como principal mtodo de acceso. No obstante, para mejorar sus prestaciones las combinan con una buena inte rrelacin de los atributos de los temes, aprovechandose de los mltiples puntos de acceso que proporcionan. Este mtodo era el seguido por los pri meros sistemas experimentales como THOMAS [ODDY 1977] o BROWSE [PALAY y FOX 1981] y por el primer sistema comercial realmente operativo, TINiib [NOERR y BIVINS-NOERR 1985]. La interrelacin de los atributos de los itemes permita llevar a cabo acciones tales como examinar una lista de encabezamientos de materia, escoger uno de inters, examinar los registros que le corresponden, seleccionar uno de ellos, usar su nmero de clasifica cin para buscar otros de la misma materia, etc. Un enfoque algo distinto es el seguido en el ya mencionado sistema experimental 1de CROFt y THOMPSON [1987]. Uno de los sistemas expertos que lo componen es el denominado Browsing Expert, que gestiona una funcin de browsing que permite al usuario comenzar su bsqueda por cualquier documento, autor o trmino en la base de conocimiento y seguir las conexiones hasta cualquier otro documento, autor o trmino de la base. Esta se muestra graficamente al usuario como una red de nodos y conexiones: los nodos representan a las entidades (documentos, autores, trminos) y las conexiones a las relaciones (proximidad maxima, documento citado, docu mento citante, autores y trminos) entre las entidades. Otros dos posibles tipos de estructura que se pueden utilizar como medio para browsing son los tesauros y los esquemas de clasificacin biblio tecaria. La primera posibilidad ha sido planteada por David ELLIS [1989] o por Richard POLLARD [1993], entre otros. La segunda, que sigue el mtodo usado habitualmente para ojear las colecciones impresas de las bibliotecas, ha sido propuesta por numerosos autores en muy diversos experimentos. Dado que consideramos qe esta va puede conducir a resultados satisfac torios, le hemos dedicado una atencin especial en el captulo siguiente de este trabajo, al que nos remitimos.

IV.4.5. Formas de browsing


De acuerdo con David BAWDEN [1993], es posible distinguir tres formas bsicas de browsing. La primera consiste en encontrar temes similares a uno o ms ya conocidos cuando la naturaleza de la similitud est definida slo de manera imprecisa. La segunda estriba en seguir una categorizacin predefinida -probablemente jerrquica- a travs de un espacio de informa cin para identificar temes interesantes. Y, por ltimo, la tercera implica la obtencin de una visin general de la diversidad de los temes de que cons ta un espacio de informacin para identificar sus reas interesantes. Vamos a usar este concepto tripartito de browsing como punto de par tida para analizar con algo ms de detalle cmo se ha aplicado en el contexto bibliotecario, incluyendo algunos ejemplos concretos de sistemas que han adoptado alguna de estas tres formas de browsing.

IV.4.5.1. Guiado por estructura El mtodo que se ha utilizado ms habitualmente en una biblioteca es el segundo de los establecidos por BAWDEN: las acciones de browsing se lle vaban a cabo a travs de una categorizacin impuesta por la biblioteca, nor malmente un esquema de clasificacin para ordenar los libros en los estan tes o una serie de ndices fciles de usar. Una de las primeras posibilidades de hacer browsing en sistemas automatizados la proporcionaron los sistemas basados en los mens. Su estructura arbrea permita llevar a cabo ciertas actividades de ojeo de la base de datos, aunque muy limitadas debido a que el nmero de vias a utili zar es muy restringido -a veces, slo una- y el grado de interrelacin entre los itemes es muy reducido. No resultaba posible, por tanto, una verdadera navegacin a travs de la base de datos ni permitan que los usuarios tuvie ran una idea clara de cul era su posicin en la estructura en un momento concreto.

IV.4.5.2. Equiparacin por similitud Como ya hemos comentado con anterioridad, los defectos de los sistemas de recuperacin basados en la lgica booleana y la equiparacin exacta han dado lugar a la aparicin de los sistemas basados en la similitud y la equi paracin parcial, que tienen ventajas tales como que nunca dan resultado nulo, que ayudan en el analisis de los resultados de la bsqueda, ya que los ordena de acuerdo con su relevancia, etc. Estas tcnicas han probado su eficacia suficientemente, por lo que parece probable que todos los sistemas de recuperacin se basaran en ellas en un futuro prximo; sin embargo, su aplicacin a sistemas de recuperacin de informacin bibliografica con prestaciones de browsing es muy escasa todava. Slo se ha implementado en algunos sistemas experimentales de los que el mas significativo es INSTRUCT. Es un sistema que ha sido diseado como herramienta para experi mentar con las tcnicas avanzadas de recuperacin y para mostrarlas a sus alumnos de la Universidad de Sheffield. Una vez identificados uno o varios documentos relevantes, INSTRUCT permite dos tipos de browsing: bsque da en cadena y bsqueda "semilla". A partir de un documento considerado relevante se inicia una bsqueda en cadena que va llevando al usuario hacia los documentos relacionados, para lo que el sistema utiliza rutinas estadsti cas de bsqueda de tipo best match y mecanismos de clustering que sitan juntos a los documentos relacionados. Por su parte, el segundo tipo es una bsqueda best match en la que los trminos de la demanda original son sus tituidos por los trminos -reducidos a la raz- extrados del ttulo y resumen del documento considerado como relevante (que constituyen la denominada "semilla"). El resultado de la bsqueda es una lista de documentos ordena dos de acuerdo con su similitud decreciente con respecto a la "semilla" [WADE y WILLETT 1988]. Las investigaciones llevadas a cabo en INSTRUCT han servido como base para disear SIBRIS, un sistema de recuperacin con amplias presta ciones de browsing desarrollado por Pfizer Central Research, una institucin britanica de investigacin farmacutica [WADE et al. 1989].

Hay un interesante antecedente que se implant en las bibliotecas nor teamericanas entre los aos 30 y 50 y que se denomin browsing room. Con sista en poner a disposicin de los usuarios un subconjunto de la coleccin de la biblioteca -que se cambiaba con frecuencla- en una sala aparte, libre de algunas de las normas bibliotecarias (respecto a fumar, a hablar en voz alta, etc.). La eleccin de la coleccin de browsing se hacia de manera que promoviera la lectura espontanea y mostrara la cobertura o variedad de la coleccin de la biblioteca [APTED 1971]. Desgraciadamente, esta idea desa pareci y no se ha implementado nada parecido en los catlogos automati zados, ni siquiera a nivel experimental. Uno de los escasos sistemas que proporcionan esta forma de browsing es EYEBROWS, que genera una visin global de un documento por el sencillo mtodo de escoger frases con una alta proporcin de palabras sig nificativas, es decir, aqullas que tienen las frecuencias ms altas -elimi nando las palabras vacas- dentro del documento. El objetivo de esta pres tacin de EYEBROWS era describir el contenido del texto y dar una idea de su estructura y temtica como punto de partida para el browsing [COVE Y WALSH 1988].

/V.4.6. Organizacin da /a informacin


Para que una fuente de informacin sea realmente til para llevar a cabo acti vidades de browsing es necesario que sea organizada de manera apropiada, esto es, la forma en que los recursos informativos estn organizados o estructurados tiene una importante influencia en el tipo y facilidad de browsing [CHANG y RICE 1993]. Por otro lado, dado que se trata de una actividad de naturaleza muy personal, condicionada por los estados de conocimiento de los usuarios, cualquiera que sea la forma de organizacin adoptada, debe ser una que anime y apoye que aqullos hagan browsing por si mismos. En opinin de David BAWDEN [1993], la informacin puede ser organizada en una de las dos formas siguientes: a) de una forma semi-aleatoria, permitiendo la cone xin entre areas temticas; y b) mediante un completo procesamiento, espe cfico para las necesidades de browsing. En este punto nos encontramos con una antigua polmica: es prefe rible proporcionar una amplia coleccin para el browsing o presentar la coleccin dividida en pequeas reas tematicas? La segunda de estas dos opciones fue fuertemente defendida por Philip MORSE [1970] en un contex to de browsing en colecciones impresas, al considerar que era mas conve niente ofrecer subcolecciones de pequeo tamao que pueden ser ojeadas

IV.4.5.3. De visin global Esta tercera forma de browsing est mucho menos desarrollada que las ante riores, aunque recientemente se han puesto de manifiesto las ventajas que proporciona una visin general de la diversidad de un espacio de informacin en el contexto de los sistemas hipertexto [BAWDEN 1993].

en 15 o 30 minutos. Mas recientemente, y ya en el contexto de los sistemas automatizados, Charles HILDRETH [1982] tambin defiende esta postura. Los actuales problemas de sobrecarga de informacin nos permiten afirmar que esta segunda opcin es la acertada. En opinin del propio HILDRETH, la estructura de los OPAC resulta bastante adecuada para soportar el browsing, ya que proporciona una buena cantidad de informacin interrelacionada (autores, titulas, cdigos de clasifi cacin...) que permite al usuario conseguir el acceso a material relevante. No obstante, tambin se dio cuenta de que la mayora de los catalogas carec an de las adecuadas prestaciones de presentacin para que el usuario pudie ra ver las conexiones entre registros y atributos y pudiera valorar si un deter minado tem era relevante o no. Por desgracia, la situacin descrita entonces por Hildreth no ha sufrido cambios demasiado significativos. Una buena muestra del segundo tipo de organizacin establecido por BAWDEN es el sistema TINlib. Las mltiples conexiones que establece entre itemes y atributos permiten al usuario navegar con mucha facilidad a travs de la estructura de la base de datos. Para conseguir esta capacidad es nece saria una compleja estructuracin y configuracin de la base de datos [NOERR y BIVINS-NOERR 1985]. Principios similares segua el sistema experimental BROWSE [Palay y Fax 1981], capaz de tratar con las preguntas clasicas que un usuario se plan tea cuando hace browsing en una biblioteca: a) Si el libro X es interesante, qu ms hay del autor que lo ha escrito? b) Si el libro X es interesante, qu otros libros tienen la misma cate gora o son del mismo tipo? e) Si una comunicacin de un congreso es interesante, qu mas comunicaciones o ponencias se han presentado a ese congreso? d) Si el autor de un articulo interesante pertenece a la institucin X, qu mas se ha publicado en esa institucin? e) Si hay un articulo interesante en una revista, qu mas aparece en esa revista? El sistema proporciona respuesta a este tipo de cuestiones dando al usuario vas fciles y rpidas de acceso entre los registros relacionados. Ademas del mtodo de las listas alfabticas, utilizado para examinar los valo res de los atributos concretos (nombres, palabras clave, etc.), proporciona una clasificacin jerrquica que permite al usuario navegar hasta los atribu tos que desea ver presentados. Para soportar todas estas prestaciones la

base de datos tiene una compleja estructura en forma de red que puede verse en pantalla. En cualquier caso, el tipo de estructura ms completo y desarrollado para proporcionar buenas prestaciones de browsing es el hipertexto, aunque -como vimos en el capitulo anterior- produce importantes problemas de desorientacin en bases de datos de gran tamao [Edwards y Hardman 1989; Foss 1989].

V. LAS TCNICAS DE CLUSTERING Y LOS ESQUEMAS DE CLASIFICACIN


La descripcin de las relaciones entre los documentos de la base de datos constituye un requisito imprescindible de los actuales sistemas de recupera cin de informacin. Esto supone que cada nuevo documento aadido a la cole cin no debe ser tratado como una entidad distinta y aislada, sino que debe ser procesado de manera que quede conectado de manera explcita a otros documentos relacionados del sistema, permitiendo que el documento se presente no slo en una estructurade carcter jerrquico sino en una red interconectada de nodos de informacin. Es decir, el sistema deberla pare cerse al imaginario Memex ideado por Vannevar BUSH [1945] hace ms de medio siglo. Para alcanzar este objetivo, los esquemas de clasificacin biblioteca ria, que por definicin tienen el propsito de exponer las relaciones entre los documentos, parecen ser una buena solucin, por lo que habra que sacar partido de esa informacin disponible en los registros MARC de los catlo gos en linea. Por otro lado, hay una importante area de investigacin en el seno de la recuperacin de informacin cuyo objetivo consiste en clasificar de mane ra automtica el contenido de las bases de datos mediante la utilizacin de las denominadas tcnicas de clustering. En este capitulo, por tanto, vamos a examinar cmo han sido y qu resultados han obtenido las aplicaciones de los esquemas de clasificacin en los catalogas en linea, a continuacin analizaremos en qu consiste el ana lisis cluster y, por ltimo, pasaremos revista a las investigaciones Y aporta ciones ms interesantes que han hecho uso de ambas herramientas conjun tamente para mejorar la recuperacin por materias en los OPAC.

V.1. La clasificacin y los catlogos en lnea


Aunque hay autores como Lancaster et al. [1991] que rechazan claramente la utilizacin de los esquemas de clasificacin como una buena via para el acceso por materias, son muy numerosos los estudios e investigaciones diri gidos a sacar partido de esa informacin ya disponible en los registros biblio grficos. La mayora de ellas han usado la Dewey Decimal Classification (DDC) y la Library of Congress Classification (LCC), sin duda por ser en Esta dos Unidos donde se han desarrollado la mayora tales investigaciones. Por su parte, la Clasificacin Decimal Universal (CDU), aunque fue la pionera en este campo, y parece reunir incluso mejores condiciones que aqullas, ha sido muy poco utilizada. Slo el predominio estadounidense en estas inves tigaciones parece justificar el uso de la LCC, cuya estructura jerrquica es completamente inconsistente y que ni siquiera fue diseada para ser un sis tema general y lgico, sino ms bien para reflejar los fondos de una bibliote ca concreta que pone un mayor nfasis en las ciencias sociales y que, como sealan Aluri et al. [1991], a medida que ha ido creciendo e incorporando nuevos temas ha ido perdiendo lgica.

Poco despus aparece el primer sistema de bsqueda bibliogrfica en lnea en el que se us un esquema de clasificacin para el acceso y el browsing por materias. FREEMAN y ATHERTON [1968] crearon un fichero con los nmeros de ciencia nuclear y las descripciones en lengua inglesa corres pondientes a esos nmeros de CDU, incluyendo tambin las referencias cru zadas y las notas de alcance de las tablas. Por otro lado, cargaron un fiche ro bibliogrfico en el que los nmeros de CDU formaban parte del registro de ndice de los !temes bibliogrficos. Para la bsqueda y recuperacin se us un sistema interactivo denominado AUDACIOUS, basado en una de las pri meras versiones del Recon de la NASA. Los usuarios introducan sus ecua ciones de bsqueda expresadas mediante trminos o frases en lenguaje natural o mediante un nmero de CDU. El sistema permita la conexin entre los trminos utilizados y los nmeros de CDU, situaba la bsqueda en su contexto jerrquico mostrando los nmeros anteriores y posteriores al esco gido con su correspondiente texto, permita el uso de los operadores boole anos, etc. Los resultados de estos experimentos llevaron a FREEMAN y ATHERTON a concluir que la CDU poda ser usada como lenguaje de indi zacin en un sistema automatizado y que su xito poda ser generalizado a otros sistemas, tales como la DDC y la LCC. La propia Pauline ATHERTON [1978] sigui ejerciendo de pionera en este campo cuando sugiri que los esquemas clasificatorios podan propor cionar acceso por materias en los catlogos en linea y que las palabras de las tablas podan proporcionar el lenguaje natural o libre para un acceso ms completo a los temas en su contexto, proporcionando de este modo una prestacin de browsing a los catlogos en linea. Poco despus surgieron diversas propuestas en la misma direccin. As, Elaine SVENONIUS [1981] sugiri que la clasificacin poda ser usada en un entorno en lnea para facilitar el browsing de los estantes. Nancy WILLIAMSON [1982], por su parte, predijo que la clasificacin asumira un importante papel en el futuro, en especial como dispositivo de browsing en los catlogos en linea. De manera ms concreta, Caro! MANDEL [1982] plan te que para mejorar el acceso por materias era necesario que se aadieran las cabeceras de las tablas de la DDC a los registros MARC. Por ltimo, Charles HILDRETH [1982] recomendaba que se establecieran conexiones entre los encabezamientos de materia y los nmeros de clasificacin como mtodo de mejorar las prestaciones de browsing de los catlogos en linea. Adems de estas propuestas tericas, hubo diversos experimentos que pretendan desarrollar y llevar a la prctica estas ideas. El primero de ellos fue el llevado a cabo por Fox y PALAY [1981] con la clasificacin "Com-

1!1.1. Antecedentes histricos


Antes de comenzar a analizar las ventajas e inconvenientes del empleo de las clasificaciones bibliotecarias para el acceso por materias en los catlogos en lnea, es conveniente que hagamos un breve recorrido por sus antece dentes histricos, esto es, cundo, cmo y para qu comenzaron a utilizarse los esquemas de clasificacin en un entorno automatizado. La aplicacin de la automatizacin a los esquemas de clasificacin data de finales de los aos 40, cuando se us un equipo de tarjetas perfora das para expresar y ordenar los nmeros de la CDU [RIGBY 1981]. Este y otros experimentos posteriores estaban preocupados por las dificultades de expresar y manipular las notaciones de los esquemas clasificatorios con la tecnologa disponible. Unos aos ms tarde, hacia 1964, ya se prevean las siguientes aplicaciones de los ordenadores a la clasificacin [RIGBY 1974]: 1) Agrupacin de conceptos para el control del vocabulario. 2) Control y presentacin de las tablas de clasificacin en una o ms lenguas. 3) Listados sistemticos de ttulos y resmenes. 4) Ordenacin clasificada de bibliograias e ndices. 5) Equiparacin de conceptos en sistemas para la difusin selectiva de la informacin.

puting Reviews". Usaron el sistema BROWSE de la Universidad Carnegie Mellon, de tipo men y que utiliza la estructura arbrea de la clasificacin "Computing Reviews". Este sistema no permita a los usuarios acceder a la parte especifica de la clasificacin en la que estaban interesados, sino que se les obligaba a hacer un recorrido desde las partes ms generales de la cla sificacin a las mas especificas hasta llegar al area que les interesaba, utili zando por tanto la estructura jerarquica como una va hasta llegar al objetivo. En una linea similar, GELLER y LESK [1983] disearon un sistema experimental de tipo men en los Laboratorios Bell, que requera a los usua rios para que fueran desde las partes mas generales de la clasificacin hasta las mas especificas, en lugar de ir directamente hasta las ms especificas. Utilizaba los encabezamientos de la LCSH para representar las cabeceras de las tablas de la DOC. Estas propuestas y experimentos estaban en consonancia con algu nas conclusiones que se haban alcanzado en los ya mencionados estudios sobre el catalogo en linea patrocinados por el CLR. Una de ellas fue que los usuarios consideraban fundamental la mejora del acceso por materias, en especial echaban de menos "la posibilidad de ver una lista de materias rela cionadas" [MARKEY 1984]. Dada la debilidad de la estructura "sindtica" de la LCSH, y en general de todas las listas de encabezamientos de materia, se sugiri que la implementacin de las tablas de los esquemas de clasificacin podra proporcionar a los usuarios la posibilidad de ver una listas de materias relacionadas conceptualmente con su tema de bsqueda, ya que eso es lo que los usuarios de las bibliotecas llevan a cabo cuando ojean los estantes de una biblioteca.

1983]. Esto es, los usuarios necesitan que se les proporcione un mecanismo que les permita moverse facilmente hasta trminos o conceptos mas amplios o mas restringidos de aqullos con los que empezaron la bsqueda, para lo que la estructura jerarquica de los esquemas de clasificacin puede ser la mejor solucin [GELLER y LESK 1983]. Ademas, el browsing del catalogo topografico en linea presenta algu nas ventajas respecto al realizado en un entorno manual. Robert HOLLEY [1987]1as resume en dos: A) La circulacin ya no sera un factor que influira en la bsqueda de obras mediante la clasificacin. Incluso una obra que no est en los estantes estara disponible bibliograficamente a travs del browsing del catalogo topografico en linea, por lo que el usuario podra reclamar, buscar o reservar el libro. B) El catalogo topografico en linea puede ser un catalogo topografico colectivo de una forma que los propios estantes no podran serlo nunca. En este sentido, habra justificacin para asignar nme ros de clasificacin estandar a todos los tipos de materiales incluso aunque no estn fsicamente colocados en los estantes con la coleccin principal. En cualquier biblioteca con mltiples localizaciones, ya sea una gran biblioteca con cientos de sucursales o una pequea con una seccin de referencia separada, el usuario sera capaz de localizar obras que estan fsicamente separadas localizandolas a travs de las tcnicas de browsing. En definitiva, esta estrategia de bsqueda tiene la ventaja de que no depende de la dispo nibilidad fsica, de que muestra las existencias en localizaciones mltiples y con todo tipo de formatos, y de que es capaz de proporcionar los registros bibliograficos completos. Por otro lado, los esquemas de clasificacin tienen una caracterstica que los distingue del resto de sistemas de acceso: son los nicos mtodos no verbales de acceso por materias a los registros bibliograficos [PETERS 1991]. Esta naturaleza numrica y simblica presenta importantes ventajas con respecto a los encabezamientos de materia, que dependen de una ter minologa especifica o lengua. En este sentido, la clasificacin proporciona estabilidad en aquellos casos en los que se produce un cambio nicamente en la terminologa pero no en la ordenacin del conocimiento. Ademas, ya que los nmeros no estan ligados a ninguna lengua, la clasificacin sirve como mecanismo para compartir intelectualmente mas alla de la lengua, esto es, puede servir como lenguaje de acceso por materias cuasi internacional, lo que es especialmente significativo en una situacin como la actual de enormes posibilidades en el acceso remoto a la informacin. Otra interesante posibilidad de uso de la clasificacin en un entorno en linea es la de servir como uno de los posibles elementos a utilizar en bs quedas complejas. Los catlogos en linea pueden soportar estrategias de

V 1.2. Ventajas e inconvenientes


Esta breve aproximacin a los antecedentes histricos nos pone de mani fiesto cual es el denominador comn de todas estas aportaciones: la clasifi cacin da soporte a actividades de browsing, conclusin nada sorprendente si tenemos en cuenta la larga tradicin de libre acceso a las bibliotecas en los paises anglosajones, donde los esquemas de clasificacin han sido utili zados basicamente como sistemas para la colocacin fsica de los libros en las estanteras. En el contexto de los OPAC, cuyos usuarios son en su mayor parte poco o nada expertos en la bsqueda de informacin, el uso de la clasifica cin permite la contextualizacin de palabras vagas en su perspectiva jerar quica, de manera que se guia al usuario desde una bsqueda formulada de manera imprecisa o inepta hasta una bastante especifica [SVENONIUS

bsqueda en las que varios elementos del registro MARC se combinan. En realidad, este tipo de estrategia ya ocurre frecuentemente en el catalogo manual: los usuarios utilizan una referencia conocida del catalogo y despus siguen el camino desde su signatura topografica y encabezamientos de materia hasta otras obras con los mismos puntos de acceso. El catalogo en lnea puede proporcionar estas estrategias con mucho menos esfuerzo del usuario. El mecanismo de bsqueda de este tipo mas utilizado para la clasi ficacin es su combinacin con los encabezamientos de materia (SVENO NIUS 1983]. En este caso, si el encabezamiento de materia cuenta con varios posibles aspectos o perspectivas, la clasificacin permitira escoger slo el aspecto que es de inters para el usuario. Las ventajas de este tipo de bsquedas quedan bien expresadas por las palabras de Lois CHAN [1 989, 536]: "usados juntos, las palabras clave, el vocabulario controlado y los nmeros de clasificacin pueden conseguir los mejores resultados en una bsqueda por materias, al complementarse unos a otros, mejorando la pre cisin y la exhaustividad". No obstante, tambin hay algunos inconvenientes en el uso de la cla sificacin en los catalogas en lnea, derivados de su propia naturaleza. En primer lugar, un nmero de clasificacin es un mtodo no verbal para locali zar un trabajo intelectual dentro del universo de conocimiento. Comparado con los encabezamientos de materia un nmero de clasificacin esta un paso mas lejos de la nocin del usuario de un tema. De hecho, hay abundantes pruebas de que a los usuarios les resulta mas difcil entender los esquemas de clasificacin que las listas alfabticas (GELLER y LESK 1983]. Por otra parte, como ha advertido Martha Yee (1991], si se van a emplear los esque mas de clasificacin para la bsqueda en lnea deberan cambiarse algunas de las practicas clasificatorias, ya que stas han estado planteadas pensan do en que iban a ser utilizadas simplemente como un sistema de localizacin fsica en los estantes.

todos los documentos con el nmero concreto introducido en la bsqueda. Evidentemente, esta opcin esta muy limitada por el hecho de que el usua rio raramente conoce la signatura concreta o la gama de ellas que usa el OPAC para definir su bsqueda tematice. Una mejora de este mtodo es la posibilidad de hacer browsing directo de los ttulos en el orden de las signa turas, de manera que si el usuario identifica una signatura se le presenta una serie de referencias bibliograficas. En cualquier caso, tambin depende de que el usuario conozca una signatura adecuada para comenzar la bsqueda [MARCELLA y NEWTON 1994]. Por tanto, incluso en sistemas muy sofisticados, la bsqueda directa por signatura topografica no es un mtodo demasiado til para la mayora de los usuarios. En este sentido, un estudio llevado a cabo en la Umvers1dad de Sussex demostraba que slo un 4 por ciento de las bsquedas realizadas en su OPAC eran de este tipo [LEE 1985]. En cuanto al uso de la clasificacin como pivote o dispositivo de cone xin es sin duda la opcin mas desarrollada. Su punto de partida es muy sen illo: si un usuario ha encontrado algo relevante en una bsqueda por materias, otras obras clasificadas con el mismo cdigo seran relevantes tam bin con bastante probabilidad. Ademas, tambin es cierto para la mayora de los sistemas de clasificacin que si los cdigos estan cerca uno del otro en el esquema de clasificacin es porque estan muy relacionados tematice mente [WALKER 1991]. En definitiva, esta posibilidad consiste bas1camente en llevar al usuario desde una obra concreta identificada mediante una bs queda en lenguaje natural o controlado hasta los registros con el mismo o similar nmero de clasificacin. De esta forma, se resuelve el problema del usuario de tener que acceder al catalogo mediante un nmero sin un signifi cado claro y evidente, problema que se traspasa al sistema, que debe conec tar la expresin en lenguaje natural introducida por el usuario con el nmero o nmeros de clasificacin mas adecuados [MARCELLA y Newton 1994]. Un ejemplo de la utilizacin de este sistema lo tenemos en Okapi. Stephen WALKER [1 987] us tres sistemas experimentales: dumb, query y tul/. El primero realizaba bsquedas por materia mediante el sistema best match con las palabras o frases introducidas por el usuario. El segundo per mita la expansin de la bsqueda inicial a partir de los documentos que se consideraban relevantes. Por ltimo, el tercero tenia la opcin de buscar los documentos "colocados en los estantes cerca de...", es decir, permita el browsing de los nmeros de clasificacin. Mediante este ltimo mtodo se conseguan dos quintas partes del total de registros recuperados, esto es: .la lista inicial de registros sufri un importante incremento gracias a la opc1on que permita el browsing mediante los nmeros de clasificacin. No obstan-

V 1.3. Tipos de usos


Stephen WALKER (1991] ha hecho una interesante sistematizacin de los posibles usos de la clasificacin en los catalogas en lnea, por lo que vamos a seguirla en este apartado. Establece tres formas de utilizacin: a) bsque da directa mediante el nmero de clasificacin, b) la clasificacin como dis positivo de conexin, y e) bsqueda directa o indirecta de las tablas e ndices de la clasificacin. Respecto a la primera posibilidad, la bsqueda directa por el nmero de clasificacin, practicamente todos los OPAC lo permiten. Se busca contra un fichero inverso de nmeros de clasificacin, de manera que se recuperan

te, como seala Chan [1990] y el propio WALKER reconoce, este mtodo contribuye fundamentalmente a aumentar la exhaustividad pero a costa de la precisin. En apartados siguientes de este captulo comentaremos algunos otros pro yectos experimentales que usan la clasificacin como dispositivo de conexin. Finalmente, como ejemplo de la tercera de las reas de investigacin definidas por WALKER, nos encontramos con el que es sin duda el estudio de mayor alcance realizado sobre el uso de la clasificacin en los catlogos en lnea: el DDC Online Project, realizado entre 1984 y 1985 por un equipo encabezado por Karen Markey. Precisamente por la enorme importancia e influencia de este proyecto dentro de este campo de investigacin, le vamos a dedicar una amplia atencin en el siguiente apartado de este captulo.

11. 1.4. Principales proyectos y sistemas


Ha habido diversos proyectos de investigacin y sistemas tanto experimen tales como implementados que han intentado utilizar los esquemas de clasi ficacin para mejorar la recuperacin por materias en los catlogos en lnea. Como ya comentamos con anterioridad, la mayora emplean la DDC, debido a su amplia implantacin en los pases anglosajones y a su estructura jerr quica, pero tambin hay algunos que usan la LCC o la CDU. A continuacin, vamos a comentar aquellos que hemos considerado ms significativos.

El equipo del proyecto prob los dos catlogos con los usuarios y el personal de las cuatro bibliotecas participantes: la Library of Congress, la New York State Library, la Public Library of Columbus and Franklin County (Ohio) y la Mathematics Library de la Universidad de lllinois en Urbana Champaign. Se obtuvieron entre 8.000 y 12.000 registros bibliogrficos de cada una de las cuatro bibliotecas, que se procesaron en cuatro diferentes bases de datos. Forest Press proporcion los registros con el ndice relativo y las tablas de la DDC legible por mquina de las cuatro reas temticas escogidas por las bibliotecas: economa y gestin (LC), geografa e historia (NYSL), deportes y entretenimiento (PLCFC) y matemticas (UI). Como medida para evaluar los dos catlogos se usaron el tiempo empleado en la bsqueda y la precisin y exhaustividad. Adems, tanto los usuarios como el personal respondieron a preguntas abiertas acerca de la facilidad de uso del sistema, diferencias entre sistemas, satisfaccin de la bsqueda y razones para su preferencia por los sistemas [DRABENSTOTT et al. 1990]. Se pretenda que los datos de las pruebas sirvieran para contestar a tres cuestiones [MARKEY 1989]: a) Es adecuada la DDC legible por mquina para ser utilizada en un OPAC como herramienta para el acceso, el browsing y la presenta cin por materias? b) Si se pone en funcionamiento mejora la DDC en linea el rendi miento de la bsqueda por materias en un OPAC? e) Prefieren los usuarios que buscan por materias un OPAC en el que la DDC est disponible o uno en el que no lo est? El componente principal del proyecto, el catlogo DOC, permita cua tro tipos de bsqueda por materias [MARKEY y DEMEYER 1986]: 1) Bsqueda alfabtica: Utiliza como fuente las entradas del ndice relativo de la DDC y permite buscar por materias alfabticas y hacer browsing alfabtico. Asi, cuando el usuario introduce un trmino, el sistema res ponde con una lista alfabtica de los trminos del ndice relativo prximos alfabticamente al trmino introducido. El usuario puede entonces hacer browsing hacia atrs y hacia adelante en la lista alfabtica, o bien seleccio nar uno de los trminos de la lista. Si selecciona uno de los trminos del ndi ce puede: a) ver los registros bibliogrficos que llevan dicho trmino; b) ver las tablas de la DDC en el lugar correspondiente, adems de los ms prxi mos, al trmino seleccionado. Esta segunda opcin es anloga al procedi miento que sigue el clasificador de mirar una materia en el ndice, anotar el

V.1.4.1. El DDC Online Project


Esta investigacin fue llevada a cabo en OCLC entre enero de 1984 y diciem bre de 1985, y fue patrocinada por el CLR, OCLC y Forest Press, empresa editora de la DOC. El objetivo bsico del proyecto era el de demostrar la efec tividad de la DDC como herramienta para el acceso, browsing y presentacin por materias en un catlogo en lnea experimental. En realidad, el OPAC experimental estaba compuesto por dos catlo gos diferentes [Markey y Demeyer 1986]: a) El Subject Online Catalogue (SOC), que tena las prestaciones de bsqueda tradicionales de los OPAC, esto es, por encabezamientos de materia, por palabras clave y por nmero de clasificacin. b) El Dewey Online Catalogue (DOC), que adems de las prestaciones tradicionales de bsqueda por materias incorporaba una mejora, ya que inclua las tablas e ndice relativo de la DOC.

nmero de la DDC asociado con una entrada relevante y localizar dicho nmero en las tablas impresas. 2) Bsqueda directa: Utiliza como fuente las palabras clave del titulo, los encabezamientos de materia, los campos de notas y serie del registro y los trminos de las tablas, ndice y notas de la DDC. El procedimiento de bs queda es como sigue. Los trminos de la expresin de bsqueda introducida por el usuario son sometidas a una bsqueda booleana de palabras clave (con el operador "y" implcito) y equiparados con los trminos indizados de los campos ricos en informacin temtica del registro bibliogrfico, incluyen do campos mejorados por la DDC. Los resultados intermedios de la bsque da son el nmero de obras recuperadas por cada uno de los trminos de la expresin introducida por el usuario. Estos resultados preceden al informe del resultado final, es decir, la combinacin de los trminos mediante el ope rador booleano "y". Cuando los usuarios ven el resultado final, tienen la opcin de ver las obras o de modificar la bsqueda. Si la bsqueda da como resultado un nmero pequeo de registros recuperados, los usuarios pueden escoger una modificacin del procedimiento en que el sistema identifica uno o ms encabezamientos de materia comunes a la mayora de los itemes recuperados. Los usuarios pueden entonces introducir ese/os encabeza mientos de materia en una bsqueda subsiguiente. Por el contrario, si el resultado de la bsqueda es demasiado numeroso, los usuarios pueden escoger una modificacin del procedimiento en el que el sistema identifica una o ms reas de nmeros de clasificacin comunes a la mayor parte de los itemes recuperados. Los usuarios pueden entonces hacer browsing en los titulas de las obras que tienen esos nmeros de clasificacin en el cat logo en linea u ojear las obras mismas en dos o tres zonas de los estantes de la biblioteca que parecen ofrecer buenas expectativas. 3) Bsqueda "esquema" (subject outline): Su fuente son las palabras clave de las tablas e ndice relativo de la DDC y el primer encabezamiento de materia del registro bibliogrfico. El procedimiento comienza sometiendo los trminos de la expresin introducida por el usuario a una bsqueda boolea na de palabras clave (con el operador "y" implcito), equiparndolos con las palabras indizadas de las tablas e ndice relativo de la DDC y el primer enca bezamiento de materia de los registros bibliogrficos. En una operacin transparente para el usuario el sistema examina los nmeros de clasificacin recuperados por la bsqueda y agrupa aqullos que empiezan con los mis mos tres dgitos. Si al final de este proceso de agrupacin hay slo un grupo de nmeros de clasificacin que empiezan con los mismos tres dgitos com partidos, el sistema dirige al usuario a la "lista de temas", que est compuesta por las cabeceras de las tablas y basada en el nmero de clasificacin de mayor ocurrencia en el procedimiento de agrupacin. Si hay mas de un grupo

de nmeros de clasificacin empezando y compartiendo los mismos tres pri meros dgitos, el sistema responde al usuario con una "lista de perspectivas" de carcter intermedio, que est compuesta por las cabeceras correspon dientes a Jos nmeros de clasificacin de tres dgitos, lo que proporciona una descripcin muy general de esas reas temticas. Desde esta lista el usua rio puede seleccionar una perspectiva para ver la "lista de temas" especifica donde hay registros bibliogrficos que contienen trminos de la expresin introducida por el usuario. Cada tema incluido se marca con un asterisco para centrar la atencin del usuario sobre la localizacin fsica en los estan tes donde se encuentran obras cuyo registro bibliogrfico contiene trminos de la expresin introducida por el usuario. Cuando ste selecciona un tema incluido en la lista, el sistema primero presenta los registros que seran recu perados en una bsqueda directa por el trmino introducido y, a continua cin, muestra otros registros bibliogrficos que llevan el mismo nmero de clasificacin que las primeras obras presentadas. El mostrar los registros en este orden tiene el objetivo de mejorar el entendimiento del usuario del pro ceso de bsqueda, ya que las primeras obras mostradas llevan trminos de la expresin introducida por el usuario, en tanto que las restantes comparten el mismo nmero de clasificacin de base de las tablas, pero pueden expre sar un aspecto diferente de la materia debido a la adicin de elementos del nmero de clasificacin al nmero de clasificacin de base. 4) Bsqueda por nmero de clasificacin: Su fuente son los nmeros de clasificacin de los registros bibliogrficos. El procedimiento comienza con la introduccin de un nmero de clasificacin que ha sido identificado como relevante a travs de una bsqueda por materias previa. El usuario puede introducir el nmero sintetizado o truncado (base), obtenido de regis tros bibliogrficos o de otras fuentes. Entonces el sistema responde con el nmero base de las tablas de la DDC que mejor equiparacin consigue con el introducido por el usuario o con una presentacin para el browsing con los titulas cuyos nmeros de clasificacin se equiparan o casi con el nmero introducido por el usuario. Si este nmero se equipara con ms de un nme ro de clasificacin de las tablas, el sistema responde con una "lista de pers pectivas" temticas, que permite a los usuarios identificar primero la materia general del nmero que ellos introdujeron, y luego continuar con la "lista de temas" concreta al seleccionar una perspectiva de la lista. Por el contrario, si el nmero introducido se equipara slo con un nmero de clasificacin de las tablas, el sistema dirige al usuario a la "lista de temas" concreta que incluye el nmero introducido. Por otro lado, el usuario tambin puede hacer browsing en el catalogo topogrfico, ojeando hacia atras y hacia adelante Y pudiendo ver sus descripciones bibliogrficas completas. En trminos generales, los usuarios prefirieron la bsqueda subject out/in e cuando realizaban una bsqueda comprensiva y exhaustiva, mientras

que la bsqueda directa atraa a los usuarios que queran resultados rpidos e inmediatos. Por otro lado, la mayora de los usuarios propiamente dichos prefirieron el catlogo SOC, al contrario que los profesionales que en su mayor parte eligieron el catlogo DOC, sin duda porque ste ofreca ms opciones pero tenda a ser ms confuso y complejo de usar. La opinin de los responsables del proyecto acerca de los resultados obtenidos fue bastante positiva, ya que consideraban que la incorporacin de la DDC proporcionaba nuevas y fructferas capacidades de bsqueda por materias que no eran posibles a travs de la bsqueda por encabezamientos de materia y por palabras clave de los OPAC tradicionales. La DDC no slo mejor la presentacin de informacin temtica en el registro bibliogrfico, sino que tambin permiti la visualizacin de un browsing del catlogo topo grfico de las zonas de los estantes donde se localizaban las obras recupe radas en las bsquedas. En definitiva, la DDC mejoraba el acceso por mate rias a los registros bibliogrficos, las estrategias de bsqueda por materias en los OPAC y la presentacin de la informacin bibliogrfica [Markey 1987]. Por otro lado, el informe final del proyecto tambin inclua una serie de recomendaciones interesantes: en primer lugar, que el lenguaje utilizado en la clasificacin debera ser cambiado para ser menos lenguaje de indizador y ms de acuerdo con el uso general; en segundo lugar, se reconoca la necesidad de que los nmeros de clasificacin fueran codificados de acuer do con un esquema similar al propuesto por WAJENBERG [1983]. Sin embargo, la opinin de otros expertos no es tan satisfactoria. Por ejemplo, Stephen WALKER [1991] considera que el browsing de las tablas no fue un xito en absoluto y que la razn bsica no es la terminologa ina decuada ni la falta de especificidad de determinadas reas de las tablas, sino que si se estn utilizando palabras clave para buscar, las ventajas de usar las directamente normalmente se imponen a cualquier beneficio que se pueda derivar de su empleo va una jerarqua clasificatoria. De esta forma, tiene poco sentido escoger la bsqueda subject outfine en DOC como mto do inicial, ya que si las palabras clave se emparejan con algunas cabeceras Dewey, a fortiori se emparejarn con algunos registros bibliogrficos que han sido enriquecidos con los mismos datos Dewey. En algunos casos, puede ser til realizar browsing jerrquico para encontrar materias relacionadas, pero esta es una actividad muy subsidiaria en relacin al mtodo directo de pala bras clave. Por otro lado, hay pruebas de que slo una minora de usuarios prefieren un mtodo cuidadoso y concienzudo para buscar. Un juicio diferente merece para WALKER [1991] el uso de palabras clave a partir de material Dewey como medio para proporcionar trminos de indizacin para los registros bibliogrficos. Los trminos procedentes de las

tablas e ndice de la DDC contribuyeron a una gran cantidad de terminologa: para cada registro bibliogrfico el ndice relativo proporcion una media de 3'44 palabras y las tablas de 5'72 palabras, de manera que se aument de manera considerable el nmero de puntos de acceso disponibles para el usuario. Aunque, como la propia MARKEY [1986] apunta, entre un 25 y un 52 por ciento de los trminos de materia aadidos eran de mala calidad, no parece haber sido origen de mucho ruido. La comparacin de la bsqueda directa en SOC y en DOC muestra que las palabras clave extra de DOC eran, en trminos generales, beneficiosas.

V.1.4.2. El Dewey Online Retrieval System (DORS) Muy recientemente ha comenzado a desarrollarse en la Universidad de Cali fornia en Los Angeles (UCLA), patrocinado tambin por OCLC, un sistema prototipo que usa la DDC para el diseo de un interfaz para un catlogo en lnea. Su caracterstica ms distintiva es que genera ndices en cadena de manera automtica. En primer lugar, LIU y SVENONIUS [1991], responsables del proyec to, identificaron los requisitos que debera cumplir un sistema de estas carac tersticas: mejora del vocabulario, facilidad para el browsing global, fcil navegacin de las clasificaciones para el usuario, bsqueda por signatura topogrfica y compatibilidad con otros mtodos de acceso por materias. El primer requisito, por tanto, es que aumente el vocabulario de entra da. Como ha demostrado el DDC Online Project, los trminos del ndice de una clasificacin pueden ser buenos trminos de bsqueda, aunque las cabeceras de las tablas son a menudo demasiado generales o ambiguas para ser tiles para este objetivo. Sin embargo, si el sistema se desarrolla nicamente con este propsito, pueden surgir problemas de coste y efectivi dad, ya que hay otros medios que permitiran alcanzar este objetivo de manera ms barata y eficaz, por ejemplo, a partir de los trminos de los ndi ces y sumarios de los documentos. Por otro lado, Liu y Svenonius sealan las ventajas que ofrece la estructura tpica de un sistema de clasificacin, que agrupa el vocabulario asociado con un concepto a diferentes niveles de especificidad. En compa racin con el tesauro, consideran que aunque ste ejerce un tipo de control de vocabulario similar, un sistema de clasificacin va ms all porque estruc tura semnticamente no slo el vocabulario asociado con conceptos sino tambin los conceptos mismos. En su opinin, las clasificaciones pueden ser vistas como redes semnticas o como rboles de conocimiento, por lo que tienen ms en comn con una base de conocimiento que un tesauro.

Siguiendo con su argumentacin, consideran que estas caractersticas estructurales de los sistemas de clasificacin pueden ser aprovechadas en estrategias de busqueda en linea muy diversas, pero que la principal de ellas es sin duda el browsing. Hacer browsing en las tablas de una clasificacin puede ayudar a los usuarios a refinar el vocabulario de sus formulaciones de bUsqueda, lo que contribuye a mejorar su precisin y exhaustividad.Sin embargo, para un browsing efectivo es necesario que se cumplan varias con diciones. Primera, al usuario se le debera permitir ver las jerarquas com pletas. El browsing se limita mucho si el territorio que va a ser ojeado es slo el de uno o dos niveles de la jerarqua. Ya que las clasificaciones contextua lizan los trminos del vocabulario en forma de una base de conocimiento deberamos esperar que las clasificaciones faciliten el browsing proporcio: nando visiones amplias del conocimiento organizado. Potencialmente, cuan to mas territorio de la base de conocimiento pueda ser objeto.de browsing a un mismo tiempo, mejor entendimiento tendra el usuario del entorno seman tico de los trminos de bUsqueda. Segunda, para que el browsing sea efectivo el usuario debera poder navegar de manera facil y efectiva a travs de la clasificacin. Probablemen te la mejor manera de protegerlo contra la desorientacin es que tenga el control de la navegacin, lo que significa que el interfaz debera ser disea do de manera que el usuario siempre sepa qu pasos se necesitan para moverse de una posicin a otra en la base de conocimiento de la clasifica cin. Ademas, el usuario tambin debera saber, en cada etapa de la bus queda, cul de entre los posibles movimientos es el mas adecuado para un objetivo concreto. El interfaz de clasificacin ideal debera, por tanto, hacer obvios tanto los mecanismos para navegacin como la informacin necesa ria para la toma de decisiones en la navegacin. Por ultimo, los dos ultimas requisitos son bastante evidentes, por lo que no necesitan ser comentados: 1) que permita la busqueda por signatura topografica, 2) que sea compatible con otras estructuras para la busqueda por materias, por ejemplo, la LCSH. De acuerdo con estos requisitos se cre el interfaz de clasificacin experimental denominado DORS, que consta de cuatro componentes: 1) una base de datos que incluye las tablas del700 (arte) de la DDC, con unas 2.600 clases; 2) una base de datos con 2.992 registros bibliograficos proporciona da_ por OCLC y cuyo contenido slo inclua el titulo, la mencin de responsa bilidad, los numeras de la DDC y los encabezamientos de materia; 3) una base de datos con los encabezamientos LCSH (extrados de los registros bibliograficos de la base de datos anterior); y 4) un ndice en cadena a las tablas de la DOC.

Como ya hemos comentado, es este ltimo componente el ms carac terstico de este sistema. Para su creacin se extrajeron trminos significati vos del ndice relativo y de las cabeceras de las tablas de la DDC, que se constituyeron en cadenas basandose en sus relaciones jerrquicas. Un encabezamiento de este ndice tiene la forma de X:Y:Z, donde X es el trmi no "foco", e Y y Z son trminos contextuales que suministran el contexto tematice para el trmino "foco". As, Y es una clase mas general que X, y Z es una clase mas general que Y. Su proceso de construccin sigui dos etapas. En la primera se extra an los trminos significativos del ndice relativo y las cabeceras de las tablas de la DDC, eliminando los trminos no significativos mediante una lista de palabras vacas. La segunda etapa consista en el encadenamiento de cada trmino "foco" con sus clases superiores o mas generales. Normalmente, el proceso de encadenamiento de cada trmino "foco" se continuaba o desa rrollaba hasta que se alcanzaba la clase de primer nivel (indicada por un nmero de tres dgitos). Sin embargo, cuando las entradas del ndice relati vo ya estaban acotadas por trminos contextuales (color: decoracin de inte riores) no se realizaba encadenamiento adicional. Tampoco se llevaba a cabo el encadenamiento si la entrada del ndice relativo era un numero de clase sintetizado (jugador de ajedrez: 794.1092). Basandose en que hay numerosos estudios que demuestran que dife rentes mtodos de acceso por materias recuperan diferentes conjuntos de materiales, Liu y Svenonius proporcionan en este sistema varias opciones: scope, que permite ver las explicaciones o notas asociadas a cada clase; browse, con la que se accede a las tablas para hacer browsing arriba y abajo, viendo los ttulos asociados con cada numero de clasificacin; o search, que proporciona diversas posibilidades de recuperacin y navegacin, ya sea mediante el ndice en cadena, el numero de clasificacin o los encabezamien tos LCSH, pudiendo cambiar sin problema de una a otra de estas opciones. En definitiva, DORS proporciona buenas prestaciones para un browsing global, ya que da dos visiones de la base de conocimiento representada por la DDC: una presentacin del ndice en cadena y otra de las tablas. La pri mera es una presentacin en forma de cadena que contextualiza los trminos de busqueda en todas las jerarquas en las que aparecen, mostrando todas las perspectivas o puntos de vista desde los que se trata el tema designado por los trminos. La segunda es una presentacin en forma de arbol que pro porciona un mtodo de abajo a arriba para el browsing, en cada paso se muestra al usuario la secuencia completa de clases bajo la clase designada por los trminos de bsqueda. Mientras la presentacin del ndice en cadena facilita el browsing global a travs de las jerarquas, la presentacin de las tablas facilita un browsing en profundidad dentro de las jerarquas.

No han sido tan satisfactorios los resultados respecto a la facilidad para la navegacin, como reconocen los propios autores. No obstante, DORS tampoco resulta demasiado deficiente en este aspecto, ya que utiliza un interfaz de manipulacin directa que permite que el usuario sepa facil mente las opciones que tiene en cada momento y, por otro lado, se propor ciona informacin til al usuario para la toma de decisiones en la navegacin cuando esta haciendo browsing de las tablas, por ejemplo, nivel de jerarqua, nmero de titulas de la base de datos asociados con el nmero de clasifica cin y contenido del nmero de clase tal y como lo representan las notas de las tablas.

V 2. 1. Concepto Al igual que se clasifican los documentos de manera manual mediante el uso de los esquemas de clasificacin bibliotecarios, es posible llevar a cabo estas tareas de manera totalmente automatica mediante lo que se denominan tc nicas de c/ustering. En trminos generales, stas se ocupan de laforma en que se agrupan los trminos de indizacinasignados a.losdocum.entos o los documentos mismos con objeto de poner de manifiesto la relcin entre los documentos de materias similares. Es posible distinguir, por tanto, dos tipos de clustering en el contexto de los sistemas de recuperacin documental: el de documentos, s.obre la base de los trminos que tales documentos tienen en comn; y el de trmi nos, sobre la base de los documentos en los que los trminos coocurren. En ambos casos, la agrupacin se consigue por medio del calculo de la similitud entre los objetos. Por otro lado, la agrupacin de los documentos puede ser llevada a cabo mediante dos tcnicas: clustering de citas y clustering de tr minos de indizacin. El primero se basa en el nmero de citas que compar ten cada par de documentos [SMALL y SWEENEY 1985], en tanto que el segundo tiene como punto de partida que los documentos estan representa dos por listas de encabezamientos de materia, palabras clave o trminos de un tesauro que describen su contenido de los documentos. Dado el objeto de este trabajo, slo nos vamos a ocupar aqu del clustering de documentos y en concreto del basado en sus trminos de indizacin. Las tcnicas de clustering y las clasificaciones bibliotecarias tienen el mismo objetivo basico: proporcionar una organizacin a la informacin alma cenada con objeto de simplificar el acceso y manipulacin de Jos ficheros o bases de datos. En un fichero que ha sido sometido a tcnicas de clustering los documentos que pertenecen a una misma clase se almacenan en locali zaciones adyacentes, de manera que un nico acceso hace disponible la clase completa de itemes. Del mismo modo, las clasificaciones bibliotecarias han sido utilizadas para situar juntos en la misma zona de estanteras todos los documentos de una area tematica concreta, facilitando as las clasicas operaciones de browsing. No obstante, hay algunas diferencias importantes entre las tcnicas de clustering y los sistemas tradicionales de clasificacin. La visin clasica aris totlica de la clasificacin se basa en la definicin de una clase con referen cia a un conjunto de propiedades que son necesarias para la inclusin en la clase, lo que se ha denominado clasificacin monotematica. Esta es la filo sofa que se aplica a la mayora de los actuales sistemas de recuperacin de informacin. De hecho, las bsquedas booleanas funcionan esencialmente permitiendo al usuario especificar su bsqueda mediante la creacin de cla-

V.1.4.3. SPRILIB
Aunque a mediados de los sesenta las tablas completas de la CDU estuvie ron por primera vez disponibles en formato legible por maquina, Jo que faci lit el desarrollo del proyecto pionero en este campo, el ya mencionado AUDACIOUS [FREEMAN y ATHERTON 1968], son muy escasos los pro yectos o sistemas que han intentado utilizarla para la recuperacin por mate rias en un catalogo en linea. Quiza el ejemplo mas significativo sea el tam bin mencionado en captulos anteriores SPRILIB del Scott Polar Research lnstitute de Cambridge. SPRILIB permite la bsqueda en texto libre y mediante los nmeros de la CDU. Como' ya comentamos, se trata de un sistema bastante sofisticado que incorpora tcnicas de recuperacin probabilstica y de relevance feedback. El usuario puede escoger entre una bsqueda booleana por palabras clave o una de tipo best match a partir del uso conjunto de los trminos del titulo Y los nmeros de la CDU, con prestaciones de relevance feedback y ranking de los itemes recuperados. Usa una versin parcial reconocida ofi cialmente de las tablas de la CDU ("Universal Decimal Classification for use in polar libraries"), una copia de la cual se encontraba al lado de Jos termina les para que los usuarios pudieran ver el significado de Jos nmeros de CDU. En opinin de sus responsables, Martn Porter y Valerie Galpin [1988], Jos resultados fueron bastante satisfactorios, aunque no parece probable que este xito sea trasladable a una biblioteca de caracter general.

V.2. El anlisis cluster


. Como ya sealamos en la introduccin de este captulo, hay una importante area de investigacin dedicada a la clasificacin automatica de documentos mediante lo que se denomina el analisis cluster. A continuacin vamos a hacer un breve repaso de sus aspectos basicos. '

ses basadas en conceptos simples o en su combinacin mostrados por los documentos individuales de una coleccin. El principal problema de este mtodo es que tanto los trminos como los documentos recuperados son considerados como con el mismo grado de importancia, lo que conduce a que las formulaciones de bsqueda y su resultados sean muy rgidos. Sin embargo, es posible hacer frente al problema de recuperar clases de docu mentos de manera ms satisfactoria utilizando otro punto de partida: el reco nocimiento del hecho de que normalmente en una clasificacin bibliogrfica no nos interesamos por documentos que tratan con un conjunto cerrado de diferentes y bien definidas materias -todas las cuales deben estar presentes para definir una clase de documentos- sino con agrupaciones de documen tos que son sustitutos razonables porque el grado en que tratan las materias es suficientemente similar. De esta forma, dado que la mayora de los docu mentos son esencialmente multitemticos, a la hora de construir ordenacio nes bibliogrficas tiles para la recuperacin, parece ms lgico el reconoci miento de clases "politticas", es decir, aquellas que tienen propiedades comunes aunque ninguno de sus miembros individuales posea todas y cada una de tales propiedades, en lugar de perseguir la coincidencia exacta de todos los temas contenidos dentro de los documentos. En definitiva, una cla sificacin bibliotecaria debera estar ms interesada en proporcionar agrupa ciones tiles de documentos que contienen un alto grado de similitud en su contenido temtico que en identificar y mostrar las relaciones fundamentales o taxonomas de conceptos. Las tcnicas de clustering aportan la mejor solu cin para conseguir estos objetivos de revelacin y creacin de clases en una coleccin documental [MARCELLA y NEWTON 1994]. El punto de partida en el que se basan las tcnicas de c/ustering de documentos es la denominada "hiptesis cluster", que establece que "docu mentos estrechamente unidos tienden a ser relevantes a las mismas deman das" [VAN RIJSBERGEN 1979, 45]. Subyacente a esta hiptesis se encuen tra la premisa de que los documentos relevantes son ms similares el uno al otro que aquellos que no son relevantes, y que existe un determinado grado de separacin o distancia entre documentos relevantes y no relevantes. El cumplimiento de esta hiptesis facilita una mejora en la efectividad en las bsquedas en sistemas de recuperacin de informacin, ya que la organiza cin del ficl1ero y la estrategia de bsqueda tienen en cuenta las relaciones de contenido que existen entre los documentos de la base de datos [CROFT 1980]. Por otro lado, tambin se consigue un aumento de la eficiencia en bsquedas de tipo best match, ya que al agrupar los documentos en c/usters disminuye el nmero de clculos de similitud que hay que llevar a cabo [SAL TON y MCGILL 1983] En este breve introduccin a las tcnicas de clustering y su aplicacin a la recuperacin de informacin es necesario distinguir entre el proceso de

generacin de clusters y las estrategias de bsqueda de cluster, aspectos que vamos a analizar en los dos apartados siguientes.

\1.2.2. Generacin de clusters


Hay muy diversos mtodos de creacin de c/usters, pero todos ellos utilizan como punto de partida el clculo de la similitud entre los documentos, y a par tir de sta, un algoritmo permite generar los c/usters de manera automtica.

V.2.2.1. Clculo de la similitud entre documentos


Todos los mtodos de clustering se basan en el clculo de la similitud entre pares de objetos, ya sean documentos individuales o clusters de documen tos. En trminos generales, la determinacin de la similitud implica tres pasos [Willett 1988]: la seleccin de las variables que van a ser usadas para carac terizar los objetos, la seleccin del esquema de ponderacin de tales varia bles y la seleccin de un coeficiente de similitud para determinar el grado de semejanza entre los dos vectores de atributos de los objetos. En cuanto a las variables, ya hemos comentado con anterioridad que se han usado dos: las citas, en estudios de tipo bibliomtrico, y los trminos de indizacin, en investigaciones de recuperacin de informacin. Respecto al segundo paso, parece bastante razonable que algunas caractersticas de los objetos sean ms importantes que otras para determinar la similitud, por lo que es conveniente la utilizacin de la ponderacin. Por ltimo, es posible distinguir varios tipos de coeficientes de similitud: de distancia, de asociacin, probabilsticos y de correlacin [SNEATH y SOKAL 1973]. Los coeficientes de distancia -como, por ejemplo, los de distancia euclidiana- han sido muy utilizados, debido a su fcil interpretacin geom trica. Sin embargo, tienen la limitacin de que en el contexto de la recupera cin de informacin pueden conducir a que dos documentos sean conside rados muy similares sin tener un solo trmino en comn. Por tanto, no es muy utilizada en este contexto, salvo el coeficiente Ward. Los coeficientes de aso ciacin, por el contrario, si han sido muy utilizados para el c/ustering de docu mentos. El ms simple de ellos es el denominado "coeficiente de equipara cin sencilla", que consiste en el nmero de trminos comunes a un par de documentos que tienen los trminos "a" y "b", respectivamente. Tiene la des ventaja de que la similitud no est normalizada, ya que no tiene en cuenta el nmero de trminos de cada uno de los documentos, lo que supone una fuer te limitacin a su efectividad. Para superar este problema la mayora de los coeficientes intentan alguna forma de normalizacin, como hacen los coefi cientes Dice o Jaccard [VAN RIJSBERGEN 1979]. Por su parte, los coefi-

cientes probabilsticos han sido bastante menos utilizados. Una excepcin la constituye el mtodo empleado por EL-HAMDOUCHI [1987] en su tesis doc toral, usando como punto de partida que los documentos pertenecientes a un cluster tienen la mxima probabilidad de ser juntamente correlevantes a una pregunta o query. Finalmente, no hay noticia del uso de coeficientes de correlacin en este contexto [WILLET 1988].

tos juzgados como muy similares se subdividen dentro de clusters ms gran des que contienen documentos que son menos similares [WILLETT 1988]. Los mtodos jerrquicos exigen como punto de partida el clculo de las similitudes de todos los emparejamientos de itemes para agrupar en ciL!sters comunes a aquellos con similitudes suficientemente grandes. Para ello es necesario construir una matriz trmino-documento, a partir de la cual se comparan todos los distintos pares de filas de la matriz, lo que produce N(N1)12 diferentes coeficientes de similitud de emparejamientos. Evidentemente, una matriz de estas caractersticas, que requiere la comparacin de cada tem con todos los dems, provoca que los algoritmos para llevar a cabo estos procesos resulten muy caros de implementar cuando la coleccin es muy grande. Hay dos estrategias bsicas para la construccin de clusters jerrqui cos: "divisiva" o "aglomerativa". En el primer caso, el cluster inicial, que repre senta a la coleccin completa, se subdivide en grupos de documentos o clusters cada vez ms pequeos. Estos mtodos divisivos dan como resultado clasificaciones "monotticas" en las que cualquiera de los documentos que componen un cluster dado debe contener ciertos trminos para pertenecer a l. Por su parte, la estrategia aglomerativa, mucho ms utilizada que la ante rior, consiste en llevar a cabo un total de N-1 fusiones para una coleccin de N documentos y da como resultado una clasificacin que se construye hacia arriba desde las hojas, de manera que los clusters ms pequeos se gene ran primero hasta llegar a la fusin final, esto es, la raz del rbol. Este tipo de clasificacin tiene naturaleza "polittica", ya que cada documento de un cluster tiene algunos, o muchos, de los trminos en comun con cada uno de los otros documentos que componen el cluster, pero no hay un trmino espe cifico que sea necesario para pertenecer al cluster [SALTON 1989; VAN RIJSBERGEN 1979]. A la hora de construir los clusters jerrquicos es necesario especificar un criterio de cercana o proximidad entre ellos. Hay varias posibilidades [LOSEE 1990; SALTON 1989; WILLETT 1988]: -Mtodo de enlace sencillo o single-link: Los clusters se forman sobre la base de la similitud entre el par ms similar de documentos, es . decir, el valor de la similitud entre un par de clusters ser el de la similitud entre la pareja de itemes "ms similar", cada uno de los cua les aparece en cada cluster. Asi, cada miembro de un cluster ser ms similar a al menos un miembro de ese mismo cluster que a cual quier miembro de otro cluster, de ah que este mtodo tambin reci ba el nombre de "mxima proximidad". Da como resultado un nume-

V.2.2.2. Mtodos de generacin Antes de comentar los principales mtodos de generacin de clusters es nece sario hacer referencia a una serie de requisitos que deberan cumplir tales mtodos para ser considerados satisfactorios [CAN y OZKARAHAN 1989]: - La composicin de los clusters es independiente del orden en que los documentos sean procesados. - Los clusters son estables, es decir, es poco probable que cambien cuando se aaden nuevos documentos y/o se eliminan viejos docu mentos. - Debera ser capaz de gestionar eficientemente el crecimiento/elimi nacin de documentos, es decir, el mantenimiento de los clusters debera ser prctico y eficiente. - Los clusters no son afectados por pequeos errores cometidos en la descripcin de los documentos. - Los clusters deberan estar bien definidos, es decir, para un conjun to dado de datos deberan producirse o una unica clasificacin o un pequeo numero de clasificaciones compatibles. - La distribucin de los documentos en los clusters debera ser lo ms uniforme posible. - Los clusters producidos deberan dar como resultado un contexto de recuperacin efectivo y eficiente. Los mtodos de generacin de clusters pueden ser bsicamente de dos tipos: jerrquicos y no jerrquicos. Estos ultimas dividen un conjunto de itemes en series de subconjuntos, con objetos similares en el mismo cluster separados de objetos no similares situados en clusters diferentes, divisin que describe una clasificacin en la que no hay relaciones jerrquicas entre los diversos clusters que han sido identificados por el procedimiento de clustering.Por el contrario, los mtodos jerrquicos dan como resultado clasifica ciones binarias en forma arbrea en las que pequeos clusters de documen-

ro pequeo de clusters de gran tamao con limites poco exactos y con escasa cohesin interna. Es un mtodo "space contracting", ya que tiende areducir la cantidad de espacio entre los clusters. - Mtodo de enlace completo o complete-link: El criterio que utiliza es precisamente el contrario que el mtodo anterior, ya que la similitud entre el par de temes "menos similar" de los dos clusters se usa como valor de la similitud entre ellos. As, cada miembro del cluster es ms similar al documento menos similar de ese cluster que al menos similar de cualquier otro cluster. Esta definicin de la perte nencia al cluster es mucho ms precisa y rigurosa que la single link, por lo que produce un gran nmero de agrupaciones con lmites muy precisos. Se puede decir que este mtodo es mucho ms rgido res pecto a la posibilidad de incorporar un documento a un cluster, en tanto que el single link es ms generoso y abierto. En este sentido, el mtodo complete link tiene caracter "space dilating", ya que los clusters tienden a ser ms pequeos a medida que los objetos se aaden al espacio de clustering. - Mtodo de enlace promedio o group average: Representa un punto intermedio entre los dos anteriores. Consiste en calcular el valor medio de un cluster en lugar del valor del objeto ms cercano al obje to que se est considerando para incorporarse a un cluster. Por tanto, cada miembro del cluster tiene una mayor similitud media con los restantes miembros del cluster que con los miembros de cual quier otro cluster. En este sentido, es un procedimiento "space conserving", ya que los clusters permanecen aproximadamente del mismo tamao y forma durante las inserciones y eliminaciones. - El mtodo Ward: Une a aquellos clusters cuya fusin da como resul tado el menor incremento en la suma de las distancias de cada docu mento respecto al centroide de su cluster. Es un mtodo muy pode roso para la agrupacin, pero ha sido criticado por su tendencia a producir clusters esfricos que pueden no reflejar adecuadamente la verdadera forma de los clusters presente en un conjunto de datos. Por otro lado, slo se define de manera explcita cuando se usa la distancia euclidiana para el clculo de las similitudes entre los docu mentos, pero el uso de un coeficiente de asociacin (por ejemplo, el Dice) no da como resultado una exacta clasificacin Ward. De estos cuatro mtodos jerrquicos el primero en usarse, y sin duda el mas empleado en las investigaciones en este rea, ha sido el single link. Los primeros trabajos demostraron que este mtodo incrementaba la efecti-

vidad en la recuperacin en comparacin con estrategias de bsqueda en ficheros no sometidos a clustering; sin embargo, la generacin de los clusters demandaba importantes recursos informticos debido a la necesidad de contar con la matriz de similitud. Ms recientemente, se ha demqstrado que es el mtodo jerrquico que peor rendimiento da en la ef ctividad en la recu peracin. Su principal problema estriba en que produce un pequeo nmero de grandes, difusamente conectados y mal definidos clusters, por lo que dif cilmente reflejan la estructura de relevancia de los datos [GRIFFITHS et al. 1984; VOORHEES 1986]. Respecto a los otros mtodos jerrquicos, un experimento muy reciente ha demostrado que, adems de ser superiores todos ellos al mtodo single link, no hay diferencias significativas entre ellos respecto a la efectividad en la recuperacin [BURGIN 1995]. Desgraciada mente, tambin exigen un mayor esfuerzo en recursos informticos. Aunque en diferente medida, todos estos mtodos jerrquicos dan lugar a clusters bien formados, sin importar el orden en que los pares de simi litud se introducen en el proceso de clustering, producen una jerarqua esta ble, etc.; esto es, cumplen en buena medida todos los requisitos que hemos mencionado anteriormente como imprescindibles para considerarlos acepta bles. Sin embargo, en su debe se encuentra el hecho de que todos ellos exi gen el previo conocimiento de las similitudes entre todos los pares de temes, por lo que su implementacin puede resultar algo cara desde el punto de vista de los recursos informticos necesarios. Como ya comentamos con anterioridad, la alternativa a los mtodos jerrquicos la constituyen los no jerarquices o heursticos, cuyas ventajas e inconvenientes parecen ser la otra cara de la moneda. Por un lado, producen de manera bastante rapida ordenaciones de cluster cuasi ptimas con un coste informtico relativamente bajo, pero, por otro, son bastante arbitrarios en cuanto a su funcionamiento, ya que los clusters finales pueden depender del orden en que el fichero de documentos se haya procesado, de la selec cin aleatoria de los documentos como centros iniciales del cluster, o de los valores exactos de los parmetros usados [CAN y OZKARAHAN 1984; MOYA 1995]. Los mtodos heursticos se basan en la disponibilidad anterior y el uso posterior y refinamiento de un conjunto inicial de clusters o, cuando los ciLJsters iniciales no estn disponibles, se usa alguna propiedad facilmente iden tificable de los itemes que van a ser objeto de clustering para definir un con junto inicial de clusters de prueba. Una vez que tenemos este conjunto ini cial, hay que proceder a definir los representantes de cada cluster, que ser virn de base para las operaciones de comparacin de similitud con cada uno de los itemes que van a ser objeto de clustering. Estos representantes

de cluster se denominan "centroides", ya que se localizan en el centro de aqul. Normalmente no se trata del tem concreto que ocupa la posicin cen tral, sino que se define de manera artificial como el promedio de los !temes de un cluster. Las comparaciones de similitud son mucho mas faciles si se llevan a cabo con el centroide del cluster en lugar de con todos y cada uno de los !temes que lo componen [SALTON y MCGILL 1983; SALTON 1989]. Por otro lado, todos los mtodos heursticos emplean una serie de parametros de introduccin que permiten controlar el proceso de clustering: nmero de clusters requeridos, tamao maximo y mnimo de los clusters, umbrales de niveles de similitud entre documento y cluster, etc. [WILLET 1988]. El mas sencillo de todos los mtodos heursticos es el denominado one pass [Saltan y Wong 1978], que toma los elementos que van a ser obje to de clustering en un orden arbitrario, sin que sea necesario conocer de manera previa las similitudes entre los itemes. En primer lugar, se toma el tem 1 Y se sita dentro de un cluster por si mismo. Cada item posterior se compara con todos los clusters existentes (inicialmente slo con el tem 1) y se sita en un cluster previamente existente cuando es suficientemente simi lar a ese cluster. Si, de acuerdo con el umbral previamente establecido, un item nuevo no es suficientemente similar a un cluster existente, dicho tem forma un cluster por si mismo. Este proceso contina hasta que se procesan todos los elementos. Evidentemente, los clusters relevantes se determinan mediante el calculo de las similitudes entre todos los centroides existentes y cada nuevo tem, por lo que cada vez que se aade un tem a un cluster exis tente, el centroide correspondiente debe ser actualizado. Si este proceso se aplica de manera pura da lugar a estructuras de cluster desiguales y probablemente indeseables. En concreto, ciertos clusters generados pueden ser demasiado grandes, mientras que otros consisti ran en !temes individuales. Por esta razn, es conveniente introducir un con trol sobre parametros tales como el tamao de los clusters, su nmero y el grado de solapamiento -nmero de !temes comunes entre clusters-. El tamao suele controlarse estableciendo un tamao medio deseable y dividiendo en trozos separados aquellos que superan el tamao permitido. Esta divisin de los clusters demasiado grandes se lleva a cabo simplemen te comparando los elementos del cluster unos con otros y situando en un subcluster comn a todos los suficientemente similares. De manera paralela, se pueden fundir en un solo cluster los !temes aislados que no encajan en los clusters existentes. En cuanto al nmero de clusters y su grado de solapamiento, pueden controlarse sin dificultad mediante el establecimiento de umbrales de simili-

tud variables, que ayudan a aumentar clusters relativamente vacos y a evi tar nuevas adiciones a los clusters que estan casi llenos. En el primer caso, los umbrales de clustering usados son bastante bajos, en tanto que se usan umbrales mas altos cuando los clusters estan casi llenos. Este mtodo da lugar a distribuciones de cluster que varan de acuer do con el orden en que se introducen los !temes, por lo que es probable que la estructura resultante no refieje de manera adecuada la similitudes entre los !temes. No obstante, diversas pruebas experimentales han demostrado que en muchos contextos de recuperacin este sistema produce resultados casi tan efectivos como los basados en metodologas jerarquicas [SALTON 1989]. Otro mtodo heurstico es el basado en los !temes que se denominan "semilla", que son aquellos que se encuentran en el centro de una zona muy densa del espacio documental, es decir, !temes rodeados de un gran nme ro de otros !temes en gran proximidad [CAN 1993]. Una vez identificados tales !temes, se usan como "semilla" de cada cluster, que estar compuesto por todos los !temes suficientemente similares al tem "semilla". Para ello, se lleva a cabo un test de densidad de manera secuencial para todos los !temes que no estn todava en un cluster. Siempre que un tem supere el test de densidad por tener un suficiente nmero de !temes cercanos, se constituye un nuevo cluster alrededor de tal item. El procedimiento contina hasta que al final quedaran algunos !temes no incluidos en ningn cluster, ya sea por que no superaron el test de densidad o porque estaban demasiado separa dos de las semillas de cluster como para encajar en alguno de los existen tes. Tales !temes pueden quedarse sueltos o reunirse en estructuras de chister propias [ROCCHIO 1971]. Otro mtodo diferente consiste en refinar distribuciones de cluster ya existentes. A partir de tales clusters con sus correspondientes centroides, se lleva a cabo una comparacin de cada tem con todos los centroides, situan dolo en aquel cluster con cuyo centroide tenga mayor similitud. Si esto supo ne que un tem cambia de un cluster a otro, habr que recalcular los centroi des correspondientes y repetir las comparaciones item-centroide hasta que no haya cambios de !temes de un cluster a otro. Hay pruebas experimenta les que demuestran que este proceso de refinamiento no da lugar a un nme ro excesivo de iteraciones [DATTOLA 1973]. Por ltimo, hay un mtodo de clustering parecido al anterior por su caracter adaptable e iterativo. En primer lugar, se asigna a cada tem una posicin arbitraria, escogida de manera aleatoria, en la estructura de cluster. Cuando se identifican dos !temes relacionados positivamente -por ejemplo, porque se recuperan juntos en una bsqueda o porque ambos son valorados como relevantes a una misma demanda- se modifican ligeramente sus posi-

ciones, ya que se incrementa su similitud y por tanto disminuye la distancia entre ellos. Siempre que se produce este hecho, es decir, se juntan mas dos temes, de manera paralela se lleva a cabo un proceso inverso, ya que se escogen otros dos temes de manera aleatoria y se separan ligeramente uno del otro para hacerlos menos similares. Esta operacin iterativa de cambio de posicin de los temes da lugar a distribuciones de la coleccin que dependen directamente de las valoraciones de los usuarios obtenidas duran te el procesamiento de la coleccin. Tambin en este caso hay pruebas experimentales que demuestran que este proceso adaptable produce estruc turas de cluster de manera rapida [YU et al. 1985].

paraciones query-centroide necesarias, y por tanto el esfuerzo en la recupe racin, es menor que en las bsquedas top down. Ademas, la probabilidad de ir hacia abajo por un camino de cluster errneo y cargar con informacin intil se reduce si las comparaciones con los centroides ms altos se elimi nan. Por otro lado, si se usa un sistema de clustering complete link -que da lugar a clusters pequeos y compactos-, la bsqueda top down es muy_ apro piada, ya que simplifica la identificacin de los clusters de mvel baJO ut1les al seguir un camino de bsqueda definido desde un nivel al siguiente. No son muy numerosos los sistemas que han implementado estas estrategias de bsqueda en cluster, ya que hay importantes problemas con ceptuales respecto al clustering de ficheros de gran tamao Y de manteni miento de tales estructuras en un entorno dinamico [SALTON 1989]. No obs tante, hay diversas aportaciones recientes que intentan solucionar alguno de estos problemas, en especial el de la eficiencia [CAN 1994]. En cualquier caso, aunque las bsquedas clasicas que utilizan ficheros inversos siguen siendo mas rapidas, no proporcionan un entorno adecuado para actividades de browsing, imprescindibles en los catalogas en lnea. E_vl dentemente, la mejor solucin sera la disponibilidad de ambos t1pos de bus queda, cuyos resultados podran combinarse para producir el conjunto final de documentos recuperados [CROFT et al. 1989; GRIFFITHS et al. 1986].

V2.3. Bsqueda en cluster


Una vez generada la estructura en cluster, hay varias opciones de bsqueda que se pueden llevar a cabo en ella. En principio, es posible distinguir dos estrategias basicas: top down y bottom up, dependiendo de en qu sentido se proceda a travs de la estructura arbrea de cluster. Evidentemente, en ambos casos las comparaciones de similitud se llevan a cabo entre los cen troides de los clusters y la pregunta o query, para posteriormente equiparar la con los documentos de los clusters escogidos [SALTON y MCGILL 1983; SALTON 1989; VAN RIJSBERGEN 1979]. La bsqueda top down parece ser intuitivamente la mas lgica, ya que consiste en proceder de arriba a abajo en la estructura arbrea. Asi, primero se compara la pregunta con los centroides de nivel mas alto y se contina hacia abajo examinando el siguiente nivel de centroides de los clusters que son suficientemente similares a la pregunta. El proceso se repite de manera sucesiva con los clusters de niveles ms bajos hasta que finalmente se com paran los documentos individuales de alguno de los clusters del ltimo nivel. En una bsqueda bottom up el procedimiento es inverso, se comienza utili zando los clusters de nivel ms bajo, es decir, los que contienen los docu mentos concretos de la coleccin, y no se le presta atencin a la estructura de cluster de nivel mas alto. Por tanto, slo es necesario almacenar los cen troides de tales clusters. Asi, una vez identificados los clusters que mayor similitud query-centroide hayan obtenido, se recuperan algunos de los docu mentos localizados en esos clusters. En bases de datos de gran tamao el nmero de clusters de nivel mas bajo, y por tanto el nmero de centroides, puede ser muy alto, por lo que puede ser muy til construir un ndice auxiliar que los incluya en forma de fichero inverso. Ambos tipos de bsqueda tienen sus correspondientes ventajas e inconvenientes. As, dado que en una bsqueda bottom up no se tienen en cuenta los niveles superiores de la jerarqua de cluster, el nmero de com-

V.3. Utilizacin conjunta de esquemas de clasificacin Y anlisis cluster


En el ltimo apartado de este captulo vamos a examinar los principales pro yectos e investigaciones que combinan el uso de los esquemas de clasifica cin y el analisis cluster para mejorar la recuperac1on por m_atenas -y, en especial, sus prestaciones de browsing- en los catalogas en linea.

V3.1. Ray Larson y el catlogo CHESHIRE


Desde finales de los 80, se estan llevando a cabo en la Universidad de Ber keley, y bajo la direccin de Ray Larson, diversos experimentos para mejo rar la recuperacin por materias en los OPAC. Para ello ut11lzan un catalogo experimental diseado especialmente para la evaluacin de las tcnicas de recuperacin de informacin en los catalogas en lnea denommado CHES HIRE (California Hybrid Extended SMART for Hypertext and lnformatiDn Retrieval Experimentation), que usa una versin modificada del SIStema SMART de Saltan.

'

Ray LARSON es uno de los investigadores que se ha dedicado con ms inters al problema de la recuperacin de informacin por materias en los OPAC -por lo que ha sido citado abundantemente a lo largo de este tra bajo- y ha definido los dos grandes problemas de aqulla: fallo en la bs queda y sobrecarga de informacin. Para solucionarlos ha propuesto el uso de mtodos de clustering a partir de los nmeros de clasificacin LCC com binados con tcnicas de recuperacin probabilstica [LARSON 1989, 1991b, 1992a, 1992b]. Normalmente, el nmero de clasificacin de una obra concreta se trata simplemente como otra palabra clave asignada a la obra. En este proyecto, sin embargo, los nmeros de clasificacin LCC extrados de los registros MARC se utilizan para incrementar el nmero de trminos asociados con un registro individual, trminos que tendrn una funcin anloga a las referen cias "use" y "trmino asociado" de un tesauro, dirigiendo al usuario al voca bulario controlado de los conceptos representados por los nmeros de clasi ficacin. El mtodo desarrollado en la investigacin consista en agrupar los elementos descriptivos temticos (palabras del titulo y encabezamientos de materia) de todos los registros MARC en una clasificacin concreta de la LCC. Los registros individuales se someten a un proceso de clustering basndose en una versin normalizada de su nmero de clasificacin, y cada uno de esos cluster de clasificacin es tratado como un "documento" senci llo con los puntos de acceso combinados de todos los documentos indivi duales del cluster. Estos c/usters, por tanto, serian una especie de tesauro de tipo front end generado automticamente, donde los trminos de los titu los y los encabezamientos de materia proporcionan un vocabulario de intro duccin al concepto o tema, representado por el nmero de clasificacin. Por lo que se refiere al mtodo de bsqueda, consiste en un proceso en dos etapas. Primera, el usuario presenta su enunciado de bsqueda mediante una expresin en lenguaje natural, que es procesada mediante ruti nas de reduccin a la raz dando lugar a una representacin en forma de vec tor. Este vector se utiliza entonces para recuperar y ordenar los clusters de acuerdo con la puntuacin obtenida segn la funcin de equiparacin esta blecida. Los clusters se muestran en la pantalla incluyendo una descripcin textual del rea de clasificacin (derivada de la tabla resumen de la LCC) junto con los encabezamientos de materia asignados ms frecuentemente dentro del cluster. En la segunda etapa se le pide al usuario que seleccione los clusters que le parezcan relevantes de acuerdo con su necesidad de informacin, y a continuacin se aaden al enunciado de bsqueda inicial los nmeros de clasificacin normalizados de los clusters seleccionados. El

enunciado de bsqueda resultante de la ampliacin es el que utiliza el usua rio para recuperar documentos concretos mediante tcnicas partial matching. Las pruebas experimentales se llevaron a cabo con una base de datos de algo ms de treinta mil registros MARC que representaban el fondo en for mato legible por mquina de la School of library and lnformation Studies de la Universidad de Berkeley. El proceso de clustering dio lugar a 8.435 clusters, con poco menos de cuatro registros por cluster de media. Por otro lado, la distribucin de los registros bibliogrficos en los clusters de clasificacin fue muy desigual, con muchos clusters (67%) consistentes en un solo regis tro, y algunos (1'1%) con mas de 40 registros. El gran nmero de clusters de un solo registro se debe basicamente a la naturaleza enumerativa de la LCC, donde los nmeros de Cutter se usan para ordenar temes alfabticamente dentro de las clases amplias. Respecto a los vectores de documento gene rados, su nmero es un poco mayor (33.371) que el de registros MARC intro ducidos debido a las variantes generadas para los registros que tenan mas de un nmero de clasificacin. Aunque Larson reconoce que se produjeron algunas distorsiones en la creacin de los clusters, relacionadas con la pobre asignacin de nmeros de clasificacin de la coleccin usada, califica los resultados de estos expe rimentos de forma bastante positiva, considerando que el mtodo de expan sin del enunciado de bsqueda mediante el sistema de clustering de la cla sificacin combinado con tcnicas probabilsticas de equiparacin proporcio na una mejor precisin y exhaustividad, con la ventaja aadida de que el usuario no necesita estar formado en el uso de la lgica booleana o en los encabezamientos de materia para obtener buenos resultados. En su opinin, el uso de tcnicas partial matching, de enunciados de bsqueda en lenguaje natural y la ordenacin de los resultados obtenidos proporcionan una forma de bsqueda mas til para el usuario medio de un OPAC que la lgica booleana. Muy recientemente ha visto la luz la segunda versin de este prototi po, el Cheshire 11. En lo que se refiere a los mtodos de bsqueda y recupe racin, su principal aportacin es que, junto a la ya analizada bsqueda en cluster, permite una bsqueda probabilstica directa [LARSON et al. 1996].

V3.2. El OPAC de la Washington University en St. Louis


Una idea muy similar a la de Larson, es decir, agrupar mediante clusters lo nmeros de clasificacin LCC en el catalogo en linea, de manera que se per mitiera hacer browsing de grupos de registros basandose en su clasificacin: ha sido sugerida por Jeifrey HUESTIS [1988] de la Washington University en St. Louis.

Huestis toma como punto de partida de su investigacin la inaplicabi lidad del truncamiento hacia derecha e izquierda para ampliar o restringir una bsqueda en los nmeros de clasificacin LCC -debido a su estructura enu merativa-, lo que supona un fuerte obstaculo para el browsing en el catalo go clasificado. Para intentar solucionar este problema, a partir de los nmeros LCC de la base de datos bibliografica se generaron clusters que representaban zonas o areas conceptuales, almacenando en el catalogo en lnea una repre sentacin de cada una de tales "zonas", para que estuvieran accesibles al programa de bsqueda. Para el desarrollo de este ndice se comenz con la introduccin manual del esquema general de clasificacin de la LCC en un fichero legible por maquina. Por este medio se identificaron poco mas de 1.500 "zonas", pero en la mayora de las areas tematicas estas "zonas" fueron tan amplias como para que la mejora proporcionada fuera mnima. En consecuencia, y basandose en el DDC Online Project de OCLC, se realiz un estudio de viabilidad para proporcionar un ndice Dewey derivado de los mismos registros bibliograficos. Como era previsible, dadas las practi cas habituales de los clasificadores, la mayora de los nmeros Dewey extra idos eran demasiado generales para propsitos de recuperacin. Sin embar go, teniendo en cuenta los estudios acerca de la dispersin entre ambas cla sificaciones [O'NEILL et al. 1987], se pens que la especificidad poda mejo rarse aadiendo los nmeros de la LCC a las entradas de ndice de nmeros DDC con los que ca-ocurran en los registros bibliograficos. As, se constru y un ndice compuesto DDC/LCC que confirm la idea de que serva para diferenciar las asignaciones de nmeros DDC muy generales. Con todas estas mejoras, el catalogo permita actividades de browsing en linea mediante tres modos de operacin: a) Retraccin automatica a partir de una exploracin del ndice fallida, esto es, da lugar a una revisin automatica sobre el cluster ms especifico, que incluye el punto donde habra estado el nmero de clasificacin ausente. b) Una demanda explicita para hacer browsing alrededor de un nme ro concreto, incluso si ese nmero est presente. e) Acceso a los clusters ms generales permitiendo la especificacin de una "zona" de nmeros LCC. Una bsqueda tpica podra ser de la manera siguiente: el usuario hace browsing en una "zona" concreta LCC y se da cuenta de que la> robras

recuperadas son mas amplias o mas especificas que las que esta buscando. A partir de ah, mira varios de los registros recuperados y escoge uno o mas nmeros Dewey de esos registros. Dada la estructura jerarquica de la DDC, el usuario puede realizar varias bsquedas en el ndice usando varios nive les de truncamiento sobre los nmeros para subir o bajar en el arbol de cla sificacin. Estas bsquedas le permitirn identificar "zonas" LCC alternativas, que le ayudaran a ajustar mejor su bsqueda original. No obstante, hay una serie de problemas para los que no encuentra solucin ni el ndice de cluster LCC ni el compuesto DDC/LCC. En primer lugar, al usuario slo se le presenta una pantalla con los nmeros de clasifi cacin, pero sin ningn tipo de informacin textual, debido a la no disponibi lidad de las tablas en formato legible por maquina, lo que resulta muy poco amigable para el usuario. Por otro lado, el ndice de cluster LCC no resuelve el problema de que obras especificas y generales puede ser clasificadas en "zonas" de nmeros LCC separadas; no obstante, un usuario persistente podra localizar una "zona" mas especifica o mas general mediante el uso del ndice compuesto.

V3.3. El sistema TOMUS de la Indiana University de Pennsylvania


Caractersticas muy similares a los anteriores tiene el sistema TOMUS de la Indiana University de Pennsylvania [MICCO 1991], aunque en lugar de crear los clusters de clasificacin en la etapa de la indizacin -como hacen Larson y Huestis- utiliza la clasificacin para subordenar grandes conjuntos al final de la bsqueda. Micco se lamenta de la ausencia de cualquier conexin significativa entre los encabezamientos de materia y los nmeros de clasificacin en los actuales OPAC, lo que hace muy difcil para el usuario identificar exacta mente el tema de inters. Ademas, muy pocos usuarios tienen idea sobre lo que representan los nmeros de clasificacin y tampoco se les han propor cionado herramientas sencillas para que lo averigen. Por otro lado, es cons ciente de que los nmeros de clasificacin permiten matizar los diferentes puntos de vista desde los que se puede analizar un tema que, sin embargo, es representado por un nico encabezamiento de materia. Con estas ideas como punto de partida, se plantea la posibilidad de desarrollar un procedimiento para combinar nmeros de clasificacin con encabezamientos de materia, considerando a cada combinacin de este tipo como un cluster de materia independiente. Los trminos de lenguaje natural deberan ser distribuidos a una nica combinacin encabezamiento de mate ria/nmero de clasificacin (cluster de materia) para ese libro o conjunto de

libros. De esta forma, es posible descomponer cfusters de materia muy gran des sin intervencin humana. Por otro lado, este procedimiento permite apro vechar la contribucin intelectual de la persona que originalmente asign el nmero de clasificacin. Para establecer las reglas de determinacin de los cfusters de materia se llevaron a cabo largas consultas con la Catafoging Division de la Bibliote ca del Congreso, tras las que se decidi que la forma ms simple y efectiva de hacerlo era tomar el nmero de clasificacin y el primer encabezamiento de materia asignado a la obra. En un principio, se pens conectar todos y cada uno de los encabezamientos de materia asignados a una obra con su nmero de clasificacin, pero esto significaba que cada palabra clave del documento tenia que ser conectada separadamente con cada combinacin encabezamiento de materia/nmero de clasificacin. El resultado habra sido una verdadera explosin de combinaciones y un nmero de conexiones ver daderamente inmanejable, por lo que se opt finalmente por escoger nica mente el primer encabezamiento de materia asignado a la obra. Este sistema permite, en definitiva, que grandes grupos de encabeza mientos de materia puedan ser descompuestos en c/usters ms pequeos que representan diferentes facetas del tema identificadas por el nmero de clasificacin.

en la versin siguiente, en todas ellas el corazn del sistema es una jerarqua de categorlas cientficas a partir de la DOC. En las tres primeras versiones la jerarqua tenia cuatro niveles en tanto que en la cuarta ya eran seis. La jerarqua se presenta en el interfaz de usuario como una metafora de las estanteras de la biblioteca, con objeto de ajustarse al modelo mental de los nios respecto al catalogo bibliotecario y la biblioteca misma. Para hacer browsing el nio se mueve a travs de las estanteras seleccionando categoras apuntando y pulsando con el ratn, que es el nico dispositivo de introduccin. Para moverse en la jerarqua slo es necesario pulsar en la estantera anterior expuesta a la izquierda. En el nivel mas bajo de cada rama de la jerarqua arbrea se encuentran los registros de los libros, que se seleccionan simplemente pulsando en su ttulo. Los datos de los registros aparecen en la pantalla en la posicin tpica que ocupan en un libro, es decir, en la portada, contraportada y pagina siguiente. Por otro lado, si se escoge la opcin library map aparece una imagen con la distribucin fsica de la biblioteca. Para la denominacin de cada estantera se usaron los trminos de las tablas de la DDC con su correspondiente nmero. No obstante, si tales tr minos no eran adecuados para los nios, se buscaban otros trminos a par tir de los encabezamientos de materia y de las palabras del ttulo. Otro de los puntos de partida de esta investigacin era que las bases de datos de colecciones grandes y antiguas, constituidas antes de que la automatizacin fuera la norma, no pueden recatalogarse y reclasificarse por evidentes razones econmicas, por lo que es necesario encontrar mtodos para agrupar los datos ya existentes en los registros bibliograficos. Cualquier coleccin con cierta antigedad ha sido clasificada y catalogada por mltiples reglas de catalogacin y ediciones de tablas de clasificacin, lo que da como resultado una base de datos inconsistente. Por tanto, resulta imprescindible manipular la base de datos para conseguir una estructura de clasificacin consolidada y consistente que permita llevar a cabo operaciones de browsing de manera sencilla y eficaz. Para ello se pens que la mejor solucin eran las tcnicas de cfustering. Por otro lado, se consider que el xito de este catalogo exiga dos caractersticas: a) una distribucin jerarquica razonablemente equilibrada, en la que sea obvio que los itemes puede ser localizados sin un indebido nme ro de callejones sin salida; y b) listas de libros al final de las rutas que sean lo suficientemente cortas como para ojearlas de manera cmoda. Esto es, se trataba de evitar que las listas de libros fueran muy grandes y que hubiera cfusters con demasiados documentos, para lo que era necesario que los nmeros de clasificacin se hubieran asignado de manera muy completa, cir cunstancia muy infrecuente en los catlogos.

V.3.4. El Science Ubrary Catalog (SLC)


La investigacin de mayor alcance en este area es sin duda el proyecto del Science Library Catalog. En l trabajan desde finales de los 80 un amplio equipo de investigadores de la Universidad de California en Los Angeles (UCLA), encabezado por Christine BORGMAN, intentando solucionar algu nos de problemas bsicos de la recuperacin por materias en los OPAC [BORGMAN et al. 1989, 1990, 1991, 1995; Hirsh y BORGMAN 1995; Rosen berg y BORGMAN 1991, 1992]. Este catalogo experimental est desarrollado basandose en varias premisas bsicas establecidas por el equipo de investigacin: a) tiene estruc tura jerrquica, ya que se considera que es la mas adecuada para organizar grandes bases de datos; b) est orientado hacia el browsing, al considerar que es el procedimiento de bsqueda ms apropiado para nios -a quienes, en principio, va dirigido este catlogo- o usuarios no expertos; y e) se basa en el reconocimiento de la informacin presentada, ya que es mas fcil reco nocer la informacin que se muestra en la pantalla que recordar las rdenes, los encabezamientos de materia, etc. Aunque a lo largo de estos aos de investigacin se han construido varias versiones, incorporando las mejoras resultantes de los experimentos

La base de datos utilizada consta de 8.200 registros bibliogrficos. Mediante algoritmos de clustering se reasignaron 7.076 registros de nme ros de clasificacin, conteniendo una media de 126 itemes cada uno (mxi mo de 1.140 registros para una clasificacin), en 959 clusters con una media de 7'4 itemes cada uno. Dado que haban resultado algunos clusters dema siado grandes, se utiliz la idea de Wiberley elal. [1990] de que no son con venientes listas de ms de 30 itemes para establecer en esta cantidad el umbral de cada lista, lo que supona que haba que dividir mediante clustering las 56 clases DDC de mayor tamao de la base de datos. Es decir, se opt por extender la jerarqua hacia abajo. La primera fase del procedimiento de clustering consisti en extraer una lista de trminos a partir de los registros MARC. Los campos usados fue ron el de titulo (245), la descripcin (520), las entradas de materia (650, 651) y, en los casos raros en que estaba presente, el campo de entrada aadida (720). Los trminos procedentes de estos campos eran cruzados contra una lista de palabras vacas y, caso de no estar incluidos, eran sometidos a un proceso de normalizacin mediante un algoritmo de reduccin a la raz. A continuacin, todos estos trminos se incluyen en una lista que se transfor ma en un vector de comparacin. Una vez que se han generado los vectores para todos los registros se someten a un algoritmo de clustering jerrquico, en concreto el descrito por VOORHEES [1986], cuyo resultado es un rbol binario cuyos nodos ms externos corresponden a registros de libros concretos y los internos repre sentan subclusters de generalidad que se incrementa de las hojas a la raiz. El ltimo paso consista en extraer la estructura jerrquica decimal necesitada por el SLC a partir de rbol de cluster. Se cre un rbol de diez caminos, cada nodo del cual representa una estantera dentro del SLC (o una lista de libros si contiene 30 o menos hijos). Para cada uno de los rboles cre ados, se establece un subrbol de reserva para almacenar todos los nodos encontrados que parecen estar ligados a su localizacin por accidente, es decir, exhiben muy poca o ninguna similitud con los nodos que les rodean. Este subrbol especial se denomina miscelnea. En resumen, el proceso consta de cuatro etapas: a) se introduce la informacin de los registros MARC; b) se crean los vectores de comparacin de los registros; e) se construye un rbol de cluster binario; y d) se desarro lla una estructura de rbol jerrquico de estilo DOC. Las cuatro versiones del SLC han sido sometidas a una completa eva luacin, con algunos resultados bastante significativos [BORGMAN el al. 1995]. Asi, se demostr que los nios fueron capaces de encontrar algunos de los temas ms fcilmente en el SLC que en los sistemas de palabras

clave, en especial cuando los temas eran rns abiertos o ms difciles de deletrear o escribir. El abandono de la bsqueda tambin fue mayor en los sistemas clsicos que en el SLC cuando tenan dificultades con la escritura o deletreo de los trminos o cuando no conseguan generar los trminos ade cuados para la bsqueda. Por otro lado, los nios encontraron muy pocas dificultades para navegar a travs de la estructura jerrquica. Las presenta ciones en pantalla de la estructura jerrquica proporcionan el contexto para los temas, lo que parece ayudarles para conocer el vocabulario del tema y aprender ms acerca de ese rea temtica. Entre los resultados negativos extrados de la evaluacin hay uno que es especialmente importante. La versin 4 tenia el objetivo de probar los limi tes del tamao de la base de datos, por lo que se increment el nmero de registros desde 1.500 hasta 8.200, provocando adems que se pasara a seis niveles en la jerarqua en lugar de cuatro. Esto dio lugar a que determinados clusters fueran demasiado grandes, por lo que hubo que recurrir al procedi miento de clustering previamente comentado para reducir el tamao de los clusters ms grandes. De todas formas, los resultados de los tests ponen de manifiesto que se obtuvieron mejores resultados en las versiones ms sim ples, con menor nmero de registros bibliogrficos y con una estructura de slo cuatro niveles jerrquicos. En la actualidad, los miembros de este proyecto estn experimentan do con una versin avanzada que incluye la bsqueda por palabras clave en el sistema de browsing jerrquico, con prestaciones de correccin ortogrfi ca y resultados ordenados de acuerdo con su relevancia [HIRSH y BORG MAN 1995].

VI. LA PRXIMA GENERACIN DE SISTEMAS EN LNEA DE ACCESO PBLICO


Como corolario al minucioso anlisis que hemos ido haciendo a lo largo de los captulos previos del desarrollo de los OPAC, de sus problemas funda mentales y de las soluciones ms significativas que se han planteado en diversos proyectos y sistemas prototipo, vamos a presentar en este captulo una perspectiva global y homognea de sus deficiencias bsicas, seguida de una propuesta concreta de los requisitos que debera cumplir un catlogo en linea que pueda hacer frente a los importantes retos y exigencias que le van a demandar los usuarios actuales. El cumplimiento de tales requisitos con vertira a los OPAC en algo ms que un simple catlogo bibliotecario, por lo que algunos han comenzado a denominarlos de manera ms adecuada

como "sistemas en linea de acceso pblico", lo que, en nuestra opinin, es bastante acertado y se ajusta mas fielmente a las funciones que deben desa rrollar y a los servicis que se espera que presten a los usuarios.

V1.1. Deficiencias no resueltas de los OPAC actuales


En la actualidad, mas de quince aos despus de su aparicin, los OPAC no han conseguido satisfacer las enormes expectativas que haban despertado. Los catalogas en lnea que estan a disposicin de los usuarios en las biblio tecas actuales siguen teniendo importantes problemas que les sitan muy lejos de alcanzar su objetivo de ser sistemas que permitan que cualquier per sona acceda a todo tipo de informacin de manera rapida y sencilla. Tras todos estos aos de abundante investigacin en este area los resultados no pueden ser mas decepcionantes. Buen ejemplo de esta decep cin es el polmico articulo de Nicholson BAKER [1994] criticando los cata logas en lnea y reclamando la vuelta a los viejos y fiables catalogas manua les. En principio, caben dos posibles grandes razones que explicaran este fracaso [BEAULIEU y BORGMAN 1996]: a) los diseadores de los sistemas comerciales no han hecho uso de los resultados de la investigacin debido a la ausencia de una adecuada transferencia de tales resultados, b) la investi gacin llevada a cabo no ha seguido la direccin adecuada para ser aplica da en un contexto real. En nuestra opinin, la primera de estas razones pare ce tener un mayor grado de influencia en dicho fracaso, cuestin que sera objeto de analisis mas detallado a continuacin. Ya de manera mas concreta, es posible afirmar que el origen de sus problemas se encuentra en que la practica totalidad de los OPAC operativos siguen basndose en el modelo del catlogo clasico de fichas y en el mode lo de recuperacin de los IRS. De esta forma, la estructura del registro, su contenido y los campos en los que es posible buscar estan extrados del modelo del catlogo manual, en tanto que las funciones de bsqueda y el interfaz de usuario se basan en el modelo tpico de los IRS.

especializados en la bsqueda de informacin. A este respecto, la investiga cin llevada a cabo acerca del comportamiento en la bsqueda de informa cin pone de manifiesto que los usuarios formulan sus preguntas en etapas, de manera gradual, hasta llegar al punto en que pueden comenzar a articu lar su enunciado de bsqueda. Incluso entonces el proceso de bsqueda puede seguir siendo iterativo, ya que el objetivo puede ser el de refinar la bsqueda mas que el de reunir un conjunto de documentos que se equipa ren con su enunciado de bsqueda. Una bsqueda puede llevarse a cabo a lo largo de diversas sesiones con diferentes fuentes y tecnologas de infor macin, tanto en lnea como manuales, cogiendo y escogiendo a partir de mltiples opciones para contestar una pregunta o explorar un tema [BATES 1989; HANCOCK 1987; KUHLTHAU 1991]. Teniendo en cuenta los resultados de estas investigaciones, los inter faces de usuario de los catalogas en lnea deberan permitir que el usuario accediera al sistema introduciendo cualquier expresin en lenguaje natural y deberan proporcionarle herramientas que le ayuden a explorar y refinar su necesidad de informacin a lo largo de ese proceso iterativo. Sin embargo, el diseo de la practica totalidad de los catalogas en lnea operativos tienen como premisa basica que los usuarios formulan un enunciado de bsqueda que representa un objetivo fijo e invariable y en el que cada sesin de bs queda es independiente. Los interfaces de estos sistemas exigen a los usua rios que especifiquen la bsqueda de manera completa en un enunciado de bsqueda nico para que el sistema devuelva un conjunto de registros que se ajustan con dicho enunciado de bsqueda. Aunque algunos catalogas en linea permiten un cierto grado de modificacin de la bsqueda, estan muy lejos de ser sistemas verdaderamente exploratorios. Los sistemas de recuperacin clasicos, basados en una query o enun ciado de bsqueda nico, fueron diseados para usuarios preparados, nor malmente bibliotecarios, que los usaban frecuentemente, no para novatos o para usuarios finales que hacen la bsqueda por si mismos. Estos sistemas slo son efectivos cuando la bsqueda es especfica, el usuario sabe de manera precisa lo que quiere y la bsqueda puede ser expresada de mane ra adecuada en el lenguaje del sistema, situacin poco frecuente en los cata legos en lnea. Estos deben servir a una poblacin de buscadores de infor macin que es heterognea en trminos de edad, lenguaje, cultura, conoci miento de la materia y experiencia con ordenadores, la mayora de los cua les seran novatos eternos en recuperacin de informacin. Este modelo clasico de diseo de los sistemas de recuperacin esta presente en todos los catalegos en lnea operativos, por lo que incluso aque llos que ofrecen posibilidades de browsing en los ficheros de autoridades o

V/.1.1. El modelo de Jos JRS


La recuperacin de informacin es un problema de naturaleza compleja, ya que requiere describir informacin que todava no se tiene. Los usuarios deben traducir sus necesidades de informacin en un enunciado concreto de bsqueda de informacin, basndose para ello en su propio conocimiento del problema, su entendimiento de las herramientas que el sistema le proporcio na para describir el problema y -en su caso- los servicios de intermediarios

ndices slo lo permiten dentro de las restricciones de una query concreta. Pocos sistemas permiten a los usuarios retener fragmentos de estrategias de bsqueda anteriores y recombinarlos de otras formas para conseguir cone xiones no lineales en la base de datos o para explorarla por otros medios.

porcionan un mayor nivel de funcionalidad, proporcionando ms tcnicas para la bsqueda a partir de los mismos datos, pero tambin suponen un mayor nivel de complejidad en el proceso. Para hacer un anlisis ms completo de las diferencias y similitudes respecto al conocimiento y tcnicas necesarias para buscar en un catlogo en linea en comparacin con uno manual vamos a utilizar como punto de par tida el esquema de tres niveles de conocimiento establecido por BORGMAN [1996]: a) Conocimiento conceptual del proceso de recuperacin de informa cin, es decir, cmo se traduce una necesidad de informacin en un enunciado de bsqueda concreto. b) Conocimiento semntico de cmo implementar una bsqueda en un sistema dado, es decir, cmo y cundo usar las diversas caracte rsticas que ofrece el sistema. e) Destrezas de carcter tcnico para ejecutar la bsqueda, esto es, conocimientos bsicos de informtica y de la sintaxis adecuada para introducir los enunciados de bsqueda concretos.

Vl.1.2. El modelo del catlogo de fichas


Los catlogos en lnea surgieron de los catlogos de fichas, automatizando registros que estaban diseados para un entorno manual, con interfaces que iban dirigidos a unos usuarios de la biblioteca familiarizados con los catlo gos manuales. El modelo del catlogo en fichas fue definido por Charles CUTTER [1904] al enunciar los objetivos fundamentales que deba cumplir un catlo go bibliotecario: -debe permitir encontrar un libro del que se conoce el autor, el ttulo o la materia -debe poder mostrar qu obras posee la biblioteca de un autor, sobre una materia concreta o sobre un determinado gnero literario -debe ayudar a escoger un libro en cuanto a su edicin o a su carc ter (literario o temtico). Basndose en estos objetivos, un catlogo se ordena bajo la premisa de que los usuarios llegan al catlogo sabiendo al menos uno de los tres pun tos de acceso: autor, ttulo o materia. Sin embargo, los estudios experimen tales demuestran que tanto en un entorno manual como en uno automatiza do los usuarios suelen llegar al catlogo con informacin incompleta de tales puntos de acceso [CHEN y DHAR 1990], por lo que deben usar informacin externa al catlogo (bibliografas, listas de encabezamientos de materia, etc.) para obtener suficientes datos para expresar su bsqueda. Por tanto, los objetivos de Cutter no representan de manera adecuada la forma en que las personas buscan informacin. Aunque su modelo tenia presente al usuario, su visin estaba basada en un enfoque positivista, no en el estudio directo y real de la forma en que las personas formulan sus cuestiones y buscan infor macin [WILSON 1983]. Dado que los catlogos en lnea de la primera y la segunda generacin utilizan los mismos datos y se basan en los mismos principios que el catlo go de fichas, la estructura del registro y los puntos de acceso continan sien do bsicamente los mismos. De esta forma, buena parte del proceso de bs queda es lo mismo en ambos tipos de catlogo. Los catlogos en linea pro-

Vl.1.2.1. Conocimiento conceptual Tanto en un entorno manual como en uno en lnea la tarea de recuperar infor macin es dificil. El proceso no consiste simplemente en formular una bs queda sencilla, sino que habitualmente se comienza con una necesidad de informacin vagamente definida que gradualmente se va desarrollando hasta un punto en que el usuario es capaz de expresar algunos atributos de los documentos que podran contener la informacin que l necesita. A partir de este momento empieza la bsqueda propiamente dicha, aunque tambin es posible que a travs de las diversas iteraciones con el sistema se vaya modi ficando el enunciado de bsqueda original [SHENOUDA 1990; SPINK 1996]. Cuando se busca informacin, se est buscando en realidad conoci miento, pero hay que formular la bsqueda en trminos del contenido (pala bras, nmeros, smbolos) de unas determinadas entidades o objetos infor mativos. Los sistemas de recuperacin de informacin slo pueden tratar con tales entidades informativas, los registros bibliograficos en el caso del cat logo en lnea. De esta forma, el xito de la bsqueda est en funcin de la capacidad para traducir el conocimiento que se pretende conseguir a una serie de trminos de bsqueda que estn contenidos en los registros biblio grficos del catlogo. Por razones ya comentadas previamente, este proce so de traduccin resulta mucho ms complicado en el caso de bsquedas por materias que por autor o titulo.

Por otro lado, los usuarios tambin necesitan conocimiento acerca de la forma de combinar los trminos de bsqueda para construir el enunciado concreto que exprese la mezcla de conceptos requerida. La lgica booleana es la base de tales combinaciones en el catalogo en linea, constituyendo un elemento exclusivo de ste en relacin con el catalogo manual. Como nume rosos estudios han demostrado, el algebra de Boole no es algo intuitivo que es entendido facilmente por cualquier persona. Mas bien al contrario, los estudios en psicologa cognitiva ponen de manifiesto que las personas no usan modelos de naturaleza normativa en su forma de razonar habitual, sino que mas bien siguen razonamientos intuitivos, de manera que los trminos "Y" y "O" suelen utilizarse en su sentido lingstico: "Y" es inclusivo, es decir, hace las cosas mas grandes, y "O" es exclusivo, ya que hace las cosas mas pequeas, esto es, justamente lo contrario que cuando estos trminos act an como operadores booleanos [BORGMAN 1984].

permiten el uso del parntesis para especificar el orden en que se ejecuta una bsqueda con una secuencia de varios trminos y diferentes operadores booleanos, de manera que simplemente siguen el orden de izquierda a dere cha, provocando as que los resultados sean diferentes de acuerdo con el orden en que se introduzcan los trminos y los operadores. Es muy poco probable que un usuario de un catalogo en linea sea coJlsciente de todas estas posibilidades y las consecuencias de cada una de ellas. Incluso usuarios expertos encuentran dificultades de este tipo cuando cambian de un sistema a otro, ya que asumen a priori que el catalogo a usar funciona de la misma forma que el utilizado habitualmente [BORGMAN 1986a].

Vl.1.2.3. Destrezas de carcter tcnico Una vez que el usuario tiene el conocimiento semantico suficiente para implementar su bsqueda en el sistema concreto, necesita las destrezas tc nicas para formular y ejecutar los enunciados de bsqueda concretos. En el catalogo manual slo era necesaria la habilidad para manipular las fichas en los cajones, cuya organizacin era evidente a simple vista. Sin embargo, los catalogas en linea requieren destrezas de naturaleza tcnica algo ms amplias: conocimientos bsicos de informtica y de la sintaxis de rdenes. Aunque cada vez es mas frecuente, todava hay usuarios de una biblioteca que no han usado ordenadores previamente, por lo que cuestiones tan simples como el uso del ratn, la distribucin del teclado, utilidad de las teclas funcionales o el significado de mensajes habituales y sencillos apare cidos en pantalla pueden suponer un problema realmente insuperable. Para algunos usuarios las bibliotecas constituyen su primera oportunidad de utili zar un ordenador. Eri cuanto a la sintaxis de la rdenes, la mayora de los catalogas en linea exigen que el usuario introduzca las rdenes siguiendo un formato con creto y una secuencia similar a la de tres parametros mencionada con ante rioridad. Ademas, no suele aparecer de manera evidente la posibilidad de hacer browsing en lugar de una bsqueda exacta. Por otro lado, hay una serie de rdenes cuyo objetivo no es ejecutar la bsqueda en sentido estric to, sino controlar el sistema: comenzar una nueva bsqueda, moverse entre diversos ndices, opciones de formato de pantalla, posibilidades de trata. miento de los resultados obtenidos (imprimir, copiar, enviar por correo elec trnico...), etc.

Vl.1.2.2. Conocimiento semntico Una vez conseguido el conocimiento conceptual del proceso de bsqueda, el usuario necesita un conocimiento semantico de la forma de llevar a cabo su bsqueda en un sistema dado. El uso de un catlogo manual requiere el conocimiento de cmo est estructurado ese catalogo concreto, pero en el caso de los catalogas en linea su estructura es algo menos aparente desde el punto de vista fsico. Normalmente, el enunciado de bsqueda se lleva a cabo mediante el uso secuencial de tres parametros [BORGMAN 1996]: a) la accin inicial, ya sea la bsqueda directa o mediante un browsing previo, b) los puntos de acceso escogidos (autor, titulo, encabezamiento de materia, nmero de cla sificacin) y e) los trminos de bsqueda. Por lo que se refiere a los dos pri meros, no hay cambios significativos del catalogo en linea respecto al manual. Si los hay en el caso de los trminos de bsqueda, ya que los cat logos en linea permiten el acceso por palabras clave, lo que posibilita la loca lizacin de todos los registros que contengan los trminos dados en el titulo o como parte de los encabezamientos de materia. Por otro lado, estos trmi nos pueden usarse en la bsqueda aislados o combinados mediante los ope radores booleanos, lo que vuelve a traer a colacin el problema de estos ope radores. Este sistema sigue planteando problemas incluso cuando el usuario tiene un buen conocimiento de la lgica booleana, ya que los catlogos en linea tratan sus operadores de muy diversas maneras; por ejemplo, hay unos que aplican el operador "Y" de manera implcita, mientras que otros lo hacen con el operador "0". Por otro lado, la mayora de los catlogos en linea no

V/.1.3. Consecuencias negativas de ambos modelos


La utilizacin del modelo clasico de recuperacin de informacin, basado en un emparejamiento de la query nico e invariable, no tiene en cuenta la forma en que las personas se comportan cuando buscan informacin, por lo que impide que los catalogas en linea sean capaces de responder realmente a las demandas de informacin de los usuarios, limitandose nicamente al sim ple emparejamiento del enunciado de bsqueda con el contenido de la base de datos. Este modelo no fomenta las actividades de browsing, ya que no permite sacar partido de las numerosas conexiones entre los registros de la base de datos sin tener que volver a introducir una query completa. Por otro lado, tambin lleva consigo el uso de los operadores booleanos y los mto dos de recuperacin exact matching, con problemas tales como su dificultad de uso, la imposibilidad de matizar la bsqueda o de ordenacin de los regis tros recuperados, ampliamente analizados con anterioridad. En cuanto a la persistencia del modelo del catalogo manual, el anali sis comparativo de los conocimientos y destrezas tcnicas necesarias para el uso de ambos tipos de catalogo pone de manifiesto que no hay diferencias realmente significativas a favor del catalogo en lnea. Aunque las mejoras en los interfaces de usuario hacen ahora mas facilla introduccin de los enun ciados de bsqueda, los usuarios todava soportan la carga de la traduccin de su necesidad de informacin en una estructura precisa que el sistema pueda interpretar. Por otro lado, la estructura de los registros bibliograficos implica importantes dificultades con los documentos a texto completo o mul timedia y el acceso mediante la red. Por ltimo, es necesario sealar que los problemas de los OPAC actuales tambin tienen su origen en la tecnologa que utilizan, ya que no han hecho uso de los importantes avances tecnolgicos producidos en los lti mos aos en hardware, software y, especialmente, en tecnologa de las redes.

apoyadas, mas que cuales de las caractersticas existentes dan problemas a los usuarios. La primera metodologa es la seguida, por ejemplo, por Charles HILDRETH [1993] en su modelo "E3oPAC" (enhanced, expanded and exten ded). Las tres "E" indican, respectivamente, funcionalidad y usabilidad mejo rada; indizacin, contenido de datos de los registros y cobertura de la colec cin aumentados hasta convertir al catalogo en una herramienta de acceso a la coleccin total; y, por ltimo, acceso ampliado al incluir las colecciones y recursos de otras bibliotecas o centros de informacin. La segunda metodo loga es la seguida, entre otros, por el proyecto de investigacin dirigido por BELKIN y SARACEVIC [1992]. Aunque esta segunda metodologa parece ofrecer mejores perspectivas, los resultados hasta ahora arrojan conclusio nes muy similares a las de Hildreth. Un factor absolutamente determinante en la definicin de tales requi sitos es la reciente aparicin de las denominadas "bibliotecas digitales" -a las que hace referencia la tercera "E" del modelo de Hildreth-. El crecimiento explosivo de la conexin en red y los rapidos avances en el poder informati co estan sustituyendo la vieja nocin de servicios de informacin aislados por la mas reciente de bibliotecas digitales interconectadas [SHAW 1994]. En una biblioteca digital los usuarios podran trabajar de manera simultanea con mltiples fuentes de informacin distribuidas que dferran en contenido, forma o tipo de fuente: ficheros personales, bases de datos comerciales, documentacin de empresa, archivos pblicos, etc. Para poder sacar el maxmo partido de esos recursos informativos sera necesario que los siste mas de recuperacin den soporte a una gama de operaciones muy amplia que permitan al usuario entender las propiedades de la coleccin completa, de grupos de documentos o de los documentos mismos, ayudandole de manera mas efectiva al refinamiento de la bsqueda. Ademas, los protocolos de acceso y los servidores intermediarios deberan proporcionar varias for mas de puente o metaservicios que revelen de manera explcita las caracte rsticas de la informacin y de los mecanismos intermediarios, permitiendo as una descripcin y presentacin efectiva y recordable de las fuentes y de sus contenidos [Rao et al. 1995]. S tenemos en cuenta la amplia variedad de formas en que los documentos pueden ser ordenados, buscados y usados en espacios de trabajo fsicos, podemos hacernos una idea de la importan ca de proporcionar un entorno igualmente rico y flexible para interactuar con la informacin en espacios de trabajo electrnicos. La consecucin de estos objetivos no es algo que afecte slo al dise o de un interfaz mas o menos amigable, sino que tiene implicaciones que impregnan el diseo de todos y cada uno de los componentes de la bibliote ca digital. En este sentido, LEVY y MARSHALL [1995] llaman la atencin sobre el hecho de que la investigacin actual acerca de la biblioteca digital

Vl.2. Requisitos de la prxima generacin


La superacin de todos estos problemas hace necesaria la aparicin de una nueva generacin de catalogas en lnea, que realmente haga frente a las exi gencias de los usuarios cuando los utilizan para satisfacer sus necesidades de informacin. En la definicin de las prestaciones que deben reunir los catalogas en lnea de la prxima generacin se han utilizado dos mtodos bascos: el primero emplea el analiss de los problemas que se encuentran los usuarios con los OPAC existentes, en tanto que el segundo consiste en preguntarse qu objetivos, intenciones y actividades del usuario deberan ser

lleva una direccin demasiado conservadora y limitada, ya que ciertas carac tersticas de las bibliotecas clascas estan siendo conservadas como for mando parte de un pasado irreal e idealizado. Teniendo en cuenta los problemas previamente mencionados y las nuevas perspectivas y retos surgidos por la aparicin y futuro desarrollo de las bibliotecas digitales, consideramos que los catalogas en lnea deberan reunir las siguientes caractersticas bascas: a) uso de tcnicas avanzadas de recuperacin de informacin, b) interfaces de usuario amigables, e) sopor te para actividades de browsing y d) adaptacin a los estandares internacio nales, tanto en lo que se refiere a la estructura de los datos como a las comu nicaciones. A continuacin, vamos a examinar por separado cada una de estas areas, aunque evidentemente haya numerosas interrelaciones entre ellas.

Web (por ejemplo, lnfoSeek y Lycos). Muchas de las prestaciones que antes habian sido despreciadas por ser demasiado complejas para el usuario, tales como las queres en lenguaje natural, la ordenacin de los resultados de la recuperacin, la ponderacin de trminos, etc., se han convertido en ele mentos comunes de la mayora de los productos IR (por ejemplo, PLS, Verity o Fulcrum) [CROFT 1995]. Por tanto, parece llegado el momento de que tambin los catalogas en linea hagan uso de estas tcnicas para intentar superar algunos de sus pro blemas tradicionales. No todas ellas han conseguido un mismo nivel de efi cacia y fiabilidad, de hecho algunas se encuentran todava en una etapa muy temprana de su desarrollo [Kantor 1994], por lo que es necesario que haga mos una breve aproximacin a las que consideramos que presentan mejores perspectivas. Los mtodos de equiparacin parcial presentan como ventajas princi pales las siguientes: a) permiten que la bsqueda refleje de manera sufi cientemente fiel y matizada la necesidad de informacin, b) permiten la orde nacin de los documentos recuperados de acuerdo con su relevancia res pecto a tal necesidad, e) facilitan el uso de queries en lenguaje natural. Estas ventajas tienen su origen en que la equiparacin ya no es una cuestin de igualacin exacta entre palabras (las empleadas por los usuarios y los trmi nos de indizacn de los documentos), sino que se convierte en un problema matematico: establecer el grado de similitud entre la representacin numri ca de los trminos de la bsqueda de los usuarios y la de los trminos de la base de datos. Esto es, cualquiera que sea el modelo formal terico utiliza do: probabilstico, espacio vectorial o de conjuntos difusos [BELKIN y CROFT 1987], la cuestin fundamental de estos mtodos es que la representacin matematica de los trminos de bsqueda y los de los documentos permite que la comparacin entre ambos pueda ser perfectamente matizada. Un buen complemento de estos mtodos lo constituyen las tcnicas de clustering, que permiten establecer relaciones de cercana o distancia con ceptual entre los documentos de la base de datos. Como ya vimos con cier to detalle en el capitulo anterior, estas tcnicas de agrupacin ofrecen bue nos resultados tanto en lo que se refiere a la efectividad como a la eficiencia de las bsquedas. Objetivos similares pueden alcanzarse con las denominadas redes neuronales. Estas tcnicas representan un intento de modelar ciertas facetas del comportamiento nervioso y perceptivo humano, simulando la forma en que se procesa la informacin en el cerebro humano. Vale la pena que comentemos a continuacin cuales son sus premisas bascas, junto con las caractersticas mas significativas de algunos de los sistemas experimentales que han hecho uso de ellas.

V/.2.1. Uso de tcnicas avanzadas de recuperacin de informacin


Como ya hemos comentado repetidamente, la practica totalidad de los OPAC actuales siguen sin hacer uso de las tcnicas avanzadas de recuperacin documental, ya que continan utilizando el sistema clasico de equiparacin exacta junto con la lgica booleana, lo que es fuente de mltiples problemas ya examinados. La superacin de estos problemas se encuentra sin duda en el uso de tcnicas procedentes de la investigacin en recuperacin de infor macin: mtodos de equiparacin parcial (partial matc!Jing), tcnicas de ciLJstering, tcnicas de expansin de la query, redes neuronales, etc. En este sentido, parece haber un cambio de actitud muy significativo respecto a la uti lizacin en sistemas de recuperacin comerciales de este tipo de tcnicas. Durante muchos aos, la investigacin en este area era llevada a cabo por una pequea comunidad cientfica que tenia poco impacto sobre la indus tria. Incluso los grandes servicios de informacin bibliografica tales como Dia log empleaban mtodos basados en la lgica booleana, prestando poca atencin a los resultados de la investigacin sobre temas tales como mode los de recuperacin, procesamiento de la bsqueda, ponderacin de los tr minos o relevance feedback. Por fortuna, esta situacin ha comenzado a cambiar recientemente, ya que el enorme incremento en los ltimos aos del nmero de bases de datos textuales disponibles en lnea, y la consecuente necesidad de mejores tcnicas para acceder a esa informacin, ha provoca do un fuerte inters por la investigacin llevada a cabo en el area de la recu peracin de informacin. De esta forma, las tcnicas de recuperacin avan zadas de recuperacin ya se utilizan en los principales servicios de informa cin bibliografica (por ejemplo, el sistema WIN de West Publshng) y en el

Cualquier documento puede representarse como dos estructuras rela cionadas, una fisica (pginas, prrafos, lineas...) y otra lgica (autor, titulo, resumen...), lo que plantea el problema de cmo organizar y normalizar tales estructuras. Con este punto de partida es posible llevar a cabo lo que se denomina "etiquetado lgico" del documento, es decir, la obtencin de los componentes lgicos ms significativos del mismo a partir de su informacin fsica. Evidentemente, esto contribuye a facilitar la gestin automatizada de dichos documentos, su intercambio en sistemas abiertos y su almacena miento de acuerdo a normas que permitan una fcil gestin y manipulacin. Dentro de esta teora se han propuesto varios modelos que tratan los problemas de clasificacin y clustering, entre los que destacan los denomi nados ART (teora de la resonancia adaptativa) [GROSSBERG 1982]. que pueden ser considerados como algoritmos de clustering con dos distancias, que se corresponderan con las preguntas: qu cluster es el ms parecido? y son suficientemente parecidos el tem introducido y el cluster? Una de las variantes mas utilizadas del modelo ARTes el Fuzzy ART, que incorpora ele mentos de lgica difusa en las arquitecturas ART. Su principal ventaja es que rene las caractersticas de ambos campos: el carcter intuitivo de las repre sentaciones mediante conjuntos difusos, cercanas al lenguaje natural, y las propiedades de aprendizaje de las redes neuronales [CARPENTER et al. 1992; KOSKO 1992]. De esta forma, el uso de redes neuronales permite el reconocimiento de los componentes de un documento, lo que hace posible: a) utilizar esa informacin parcial de forma independiente del resto del documento para todo tipo de procesos de gestin automatizados y b) clasificar el documento en conjunto como perteneciente a una determinada clase o subclase [SINZ et al. 1995]. La mayoria de los sistemas desarrollados emplean las redes neurona les para la recuperacin de informacin probabilstica. Por ejemplo, el siste ma desarrollado por KWOC [1989], que utiliza una sofisticada red de tres capas (queries, trminos y documentos), tenia como objetivo bsico el de reformular los principios del modelo probabilstico, intentando demostrar que las redes neuronales pueden conseguir un rendimiento equivalente a las tc nicas probabilsticas. Un camino similar siguen las investigaciones de Wong Y Yao [1991]. que usa un modelo de inferencia probabilstica para un feedback adaptable de la query, y las de WONG et al. [1993]. que utiliza una arquitectura de red neuronal para el clculo de las asociaciones de trminos en un sistema de recuperacin de informacin adaptable. Posiblemente, el proyecto ms ambicioso de utilizacin de las redes neuronales lo constituye el sistema desarrollado por BELEW [1989]. denomi-

nado AIR (Adaptive lnformation Retrieval). Su estructura bsica consiste en una red de nodos que contienen documentos, autores y palabras clave, con dos enlaces que conectan al documento con su autor y con las palabras clave. Estas conexiones entre los nodos tienen un peso que se le asigna ini cialmente, pero que se va modificando a travs del proceso de interaccin y feedback con el usuario. El proceso comienza con el usuario introduciendo una descripcin de su necesidad de informacin: palabras clave, autor, etc. Esta descripcin o query activa los nodos de la red, de manera que al final del proceso el siste ma muestra al usuario aquellos nodos considerados ms relevantes. Su forma de presentacin es un grfico tripartito en el que las palabras clave se encuentran arriba, los documentos en el medio y los autores abajo, todos ellos conectados con sus correspondientes enlaces. A partir de ahi, es posi ble refinar la bsqueda mediante las valoraciones de relevancia por parte del usuario, lo que supone que la query inicial se va modificando y los pesos de los nodos se aumentan o disminuyen de acuerdo con la opinin manifestada por el usuario en sus valoraciones de relevancia. Otra interesante caracte rstica de este sistema es que el resultado de la bsqueda ofrecido al usua rio no son slo los documentos o sus referencias, sino tambin los autores y las palabras clave. En cuanto a las tcnicas de expansin de la bsqueda, que consisten en modificar la query inicial aadiendo o sustituyendo algunos de sus trmi nos, son de naturaleza bastante diversa. Las ms significativas son las siguientes: -aprendizaje interactivo de las necesidades del usuario a partir de sus valoraciones de relevancia (relevance feedback) [SALTON y BUC KLEY 1990] -aadir nuevos trminos encontrados en los documentos relevantes a la query inicial [NOREAULT et al. 1977] -seleccionar conexiones predefinidas entre descriptores de los docu mentos de acuerdo con las valoraciones de relevancia del usuario [ODDY 1977] - mediante clustering de la clasificacin de los documentos [LARSON 1992a] Todas estas tcnicas avanzadas de recuperacin documental no son contradictorias, sino que, por el contrario, cabe la posibilidad de sacar parti do de las ventajas de varias de ellas si se utilizan de manera conjunta. Por ejemplo, hay diversos sistemas que combinan bsqueda probabilstica o de espacio vectorial con tcnicas de clustering y con relevance feedback.

Finalmente, hay que resear que aunque los bsquedas booleanas tienen los defectos ya comentados, tambin presentan una serie de ventajas respecto a las bsquedas best match que aconsejan recurrir a ellas en deter minadas ocasiones. De hecho, los estudios llevados a cabo demuestran que no hay diferencias significativas en la efectividad de ambos tipos de bsque da. Sin embargo, esos mismos estudios ponen de manifiesto que existe muy poco grado de solapamiento en los documentos recuperados por ambos mtodos, esto es, son complementarios. Donde si hay diferencias significati vas es en la eficiencia, es decir, la cantidad de esfuerzo necesario para obte ner los documentos relevantes. El esfuerzo en recursos informticos es muy similar en ambos casos, sin embargo, hay una importante diferencia en la cantidad de esfuerzo requerido al usuario, ya que el modelo best match requiere slo que el usuario sea capaz de identificar y escribir los trminos de bsqueda y de evaluar la relevancia de los documentos recuperados, ocu pndose el ordenador del resto del proceso. El carcter complementario de ambos mtodos y la toma de concien cia de que diferentes tipos de tareas de bsqueda se llevan a cabo mejor por diferentes tipos de mtodos de recuperacin [HERTZUM y FROKJAER 1996], ha conducido a que en algunos sistemas experimentales se imple menten de manera conjunta ambos tipos de mtodos. Adems, hay estudios que demuestran que la combinacin de diferentes tipos de representaciones de las queries da lugar a un importante incremento en la efectividad de la recuperacin [BELKIN et al. 1995; KANTOR 1994]. En este sentido, en el sis tema prototipo Cheshire 11 se est investigando acerca de la posibilidad de usar los dos tipos de estrategia a la vez, de manera que mediante un proce so paralelo el sistema fusione y presente los dos conjuntos resultantes en un nico conjunto recuperado. Este procesamiento paralelo permitira al usuario expresar su necesidad de informacin en ms de una forma, proporcionan do al sistema una expresin ms completa de tal necesidad [LARSON et al. 1996].

mas de buscar el tem, puede encontrar otros itemes interesantes mientras busca el tem deseado, o puede incluso perder el inters por el tem original frente a otras alternativas que llaman su atencin [HILDRETH 1995]. Es decir, el comportamiento de browsing no es algo exclusivo de las bsquedas vagas o mal definidas, sino que es algo consustancial a la bsqueda huma na de informacin. Por tanto, proporcionar mtodos para un browsing abier to y exploratorio de la base de datos, es decir, que llegue ms all del clsi co y limitado examen lineal de las referencias recuperadas o del vocabulario de indizacin, se convierte en un requisito imprescindible para cualquier OPAC. Como ya vimos en el capitulo IV, hay muy diversas posibilidades de ofrecer browsing en un catlogo en linea. De estas, el hipertexto parece ser la que mejores prestaciones ofrece, aunque presenta importantes problemas de desorientacin en bases de datos de gran tamao. Para su superacin se han propuesto varias soluciones. Una de ellas consiste en el uso de tcnicas de inferencia para permitir que el sistema identifique nodos relacionados con la demanda del usuario, de manera que el sistema produce una lista de nodos candidatos que puede ser usada como punto de partida para la nave gacin del usuario [TURTLE y CROFT 1991]. Mucho ms interesante nos parece la opcin de mejorar el espacio informativo con una serie de pistas estructurales que permitan al usuario identificar los nodos relevantes [POLLARD 1993], por lo que la vamos a comentar con ms detalle. Las pistas estructurales, cuyo objetivo es el de ayudar a los usuarios a formar un modelo mental del espacio informativo que les facilite la navega cin, pueden proporcionarse por varios mtodos. Uno de los ms usados es un "browser grfico", que suele presentar un diagrama esquemtico del hipertexto en el que los nodos se representan como cajas etiquetadas y las conexiones entre los nodos como lineas, de manera que se muestra al usua rio cmo es el espacio informativo global y cmo est conectado, por lo que constituyen un buen medio para moverse de un nodo de informacin a otro. No obstante, puede haber problemas si se generan mapas demasiado gran des y confusos, para lo que puede ser una buena solucin la existencia de una representacin a varias escalas entre las que sea sencillo moverse [DILLON 1992]. Otro mtodo para proporcionar pistas estructurales es usar una arqui tectura a dos niveles en la que la coleccin documental es complementada por una coleccin de datos auxiliar. Es esta ltima la que se ojea con objeto de identificar los trminos de inters. Una vez localizados, es posible exami nar los documentos asociados con tales trminos de la coleccin de datos auxiliar para evaluar su relevancia en relacin con la necesidad de informa-

V/.2.2. Soporte para actividades de browsing


Las investigaciones sobre el comportamiento en la bsqueda de informacin han puesto claramente de manifiesto que se trata de un proceso dinmico e iterativo, no determinista. Es posible afirmar, incluso, que la mayoria de las queries formadas de manera precisa en sistemas clsicos son queries din micas, sujetas a cambio a lo largo del proceso de bsqueda. El usuario puede saber con precisin lo que quiere y usa el catlogo simplemente para localizar el item concreto y determinar su disponibilidad. No obstante, este usuario "de pensamiento sencillo/simple/singular" puede escoger varias for-

cin del usuario. En nuestra opinin, una buena forma de construir esa colec cin auxiliar de datos seria el uso combinado de tcnicas de c/ustering y esquemas de clasificacin bibliotecaria que permitiran agrupar los trminos de acuerdo con su especificidad en cada una de las reas temticas.

cionalidad del software de bsqueda y la naturaleza de la base de datos en estado original [HANCOCK-BEAULIEU 1992]. Esto es, los mecanismos de bsqueda y las bases de datos imponen lmites fundamentales sobre las opciones de bsqueda e interaccin que pueden ser presentadas al nivel del usuario. En cuanto a la disposicin de los datos en la pantalla, tras el clsico estudio de MATTHEWS [1987], ha habido algunas aportaciones recientes que merece la pena comentar. Por ejemplo, Bryce ALLEN [1994] ha sugeri do que mostrar los encabezamientos de materia en primer lugar, al comien zo del registro bibliogrfico, mejora el rendimiento de la bsqueda por mate ras, atribuyendo esta influencia al factor de velocidad perceptiva en la iden tificacin de los elementos ms apropiados de la presentacin bibliogrfica. Por su parte, Charles HILDRETH [1993] utiliza un mtodo distinto para llamar "la atencin del usuario respecto a los encabezamientos de materia: stos son resaltados en una ventana dentro del registro, de manera que moviendo el cursor hacia el encabezamiento dentro de la ventana los usuarios pueden activar conexiones hipertexto para recuperar trabajos relacionados. El propio HILDRETH [1995] ha establecido dos principios bsicos que deberan guiar el diseo y desarrollo del interfaz de usuario de un catlogo en lnea, que, a nuestro parecer, resultan muy acertados. El primero de ellos consiste en que el sistema del catlogo en lnea nunca debera permitir que un intento de bsqueda de un usuario fallara en la recuperacin de uno o ms registros bibliogrficos. Hay un exceso de fallos en las bsquedas en los actuales catlogos en linea y stos no suelen ofrecer ayuda al usuario cuando esto ocurre. Este principio se basa en que en una base de datos heterognea siempre debe haber algo que satisfaga la demanda en alguna medida, o sirva, incluso para su rechazo por parte del usuario, para suministrar informacin til que pueda ser usada para fomen tar la bsqueda. El segundo principio es que nunca se puede asumir que la presenta cin del registro bibliogrfico es el final de una bsqueda. Los registros biblio grficos son para usarlos, no slo como mecanismos de localizacin, sino tambin como dispositivos cargados de informacin que pueden facilitar el fomento y desarrollo de la bsqueda. Por desgracia, este papel de las pre sentaciones bibliogrficas es a menudo pasado por alto en el diseo de los sistemas. Teniendo en cuenta estos principios, podemos decir que los GUI son muy tiles, pero por si solos no pasan de ser una mejora "cosmtica" del interfaz de usuario. Lo verdaderamente necesario es que ste permita una interaccin ms rica y directa entre el usuario y las diferentes e interrelacio nadas etapas que conforman una bsqueda.

V/.2.3. El interfaz de usuario


Todos parecen estar de acuerdo en que un interfaz de usuario de tipo GUI es la mejor opcin en la actualidad para los OPAC; sin embargo, es necesa rio advertir que slo constituye una parte de la solucin. De hecho, ha habi do una aplicacin excesivamente entusiasta de las caractersticas grficas que a veces ha dado como resultado una complejidad innecesaria [POLLITT et al. 1994]. Por otro lado, vale la pena resear que ya hay especialistas que, basndose en que ni la situacin de los usuarios ni las posibilidades de hard ware y software actuales son las mismas que cuando nacieran los Macintosh, reclaman un modelo alternativo. A su parecer, los principios en los que se basan los GUI (usuarios inexpertos con ordenadores, manipulacin directa de los iconos de la pantalla, consistencia en la representacin de objetos, WYSIWYG, control de las acciones por parte del usuario...) ya no son tan adecuados como hace aos. De esta forma, reclaman un nuevo modelo de interfaz que va dirigido a usuarios que han crecido utilizando el ordenador, que otorgue un papel central al lenguaje como modo de comunicacin, que permita una representacin interna ms rica de los objetos, con un interfaz ms expresivo y que facilite un control de las acciones compartido entre ordenador y usuario. En cualquier caso, este modelo alternativo diseado por GENTNER y NIELSEN [1996] tardar algn tiempo en aparecer -como ellos mismos reconocen-, por lo que los interfaces GUI siguen siendo hoy por hoy la mejor opcin disponible. El interfaz de usuario est compuesto por una combinacin de presta ciones de hardware y software a travs de las cuales el usuario y el sistema de informacin interactan y se comunican para llevar a cabo tareas de bs queda de informacin. Sin embargo, hay una tendencia mayoritaria a cen trarse exclusivamente en los elementos de software que se ocupan de la introduccin de informacin y de su presentacin en pantalla, olvidndose de otros aspectos fundamentales como el hardware o la estructura de datos [YEE 1991]. Esta perspectiva tan restrictiva es la responsable de que algu nos pensaran que la amigabilidad de los interfaces GUI iba a ser la panacea que solucionara todos los problemas. Desgraciadamente, un interfaz de usuario ms amigable, que permita al usuario buscar de manera ms intuiti va, no puede ser desarrollado independientemente sin tener en cuenta la fun-

Por otro lado, la tendencia a que los OPAC sean accesibles por acce so remoto e incluyan otros tipos de fuentes y recursos de informacin ade mas de los que inclua un catlogo clasico, hace necesario que el interfaz de usuario cumpla otra serie de requisitos adicionales. En principio, un interfaz de estas caractersticas debera basarse en la filosofa cliente/servidor, lo que lleva consigo una serie de implicaciones: a) El interfaz cliente debera soportar la bsqueda de usuario final con una variedad de servidores, que podran tener muy diferentes tipos de mecanismos de bsqueda y de formatos de documentos. b) Dado que es posible acceder a diversos conjuntos de recursos infor mativos, el mismo interfaz debera ser valido para interactuar con todos ellos, independientemente de que sea informacin bibliografi ca, a texto completo, multimedia, etc. e) Es necesario limitar la reconfiguracin del interfaz cuando el usua rio se mueve de un servidor a otro. d) El espacio de la pantalla no debe desperdiciarse con informacin -procedente de una sesin anterior- que ya no es relevante para la sesin cliente-servidor en que se encuentra el usuario en un momento determinado. Evidentemente, estos dos ltimos requisitos son contradictorios, por lo que sera necesario encontrar un equilibrio entre ambos.

que cumplan los estandares internacionales tanto en cuanto a su estructura de datos como respecto a las comunicaciones.

Vl.2.4.1. Edicin electrnica La aparicin y enorme desarrollo de la edicin electrnica ha supuesto un cambio radical en muchos de los presupuestos en que se basan los bibliote cas y centros de informacin, los profesionales de la informacin o el propio mundo de la edicin. El documento electrnico presenta una serie de carac tersticas que lo diferencian en tal medida del tradicional, que se hace nece sario un replanteamiento del concepto mismo de documento. En este senti do, Linda SCHAMBER [1996] ha establecido cules son los atributos distin tivos del documento electrnico, que nos pueden servir como punto de parti da para conseguir un mejor entendimiento de sus implicaciones: - Facilmente manipulable: Su contenido puede ser compuesto y revi sado, moldeado y girado, cortado y pegado. Esto permite explotar y adaptar caractersticas tales como ndices de contenido dinamicos. - Conectable interna y externamente: Los mltiples formatos (texto, imagenes, audio, vdeo) pueden ser conectados y reconectados tanto dentro como entre documentos. - Facilmente transformable: Los formatos de almacenamiento (disco, cinta, etc.) y sus presentaciones son modificables e intercambiables desde su introduccin hasta su salida a travs de la transmisin. El almacenamiento requiere espacio de disco, no almacenes o depsitos. -Intrnsecamente localizable: La estructura lgica de los documentos, el procesamiento del lenguaje natural y los sistemas expertos facili tan el acceso y la interpretacin de su contenido. -Transportable al instante: La informacin puede ser transmitida de manera instantanea a cualquier localizacin geografica. La distribu cin requiere redes electrnicas, no camiones. -Infinitamente replicable: La distribucin es en realidad copia, ya que el original permanece en la fuente. Las cantidades son tecnolgica mente ilimitadas y la copia o produccin en masa no degrada la cali dad de las copias ni la de los originales. Ese caracter vivo, evolutivo y "escurridizo" del documento electrnico lleva consigo una considerable complicacin en las tareas clasicas de des cribirlo, indizarlo, almacenarlo o recuperarlo. Como solucin han surgido diversas herramientas tales como SGML, Postscript o PDF, de las que la pri-

V/.2.4. Adaptacin a /os estndares internacionales


El paradigma de la "biblioteca digital" como modelo de cmo las bibliotecas pueden moverse mas alla de las limitaciones de la imprenta se ha converti do en algo omnipresente. Los esfuerzos actuales se centran en las formas de complementar los recursos informativos impresos de la biblioteca tradicional con los nuevos documentos electrnicos. La biblioteca digital supone el siguiente paso lgico en la automatizacin de los sistemas bibliotecarios: los ordenadores han servido para ayudar a los bibliotecarios a procesar y orga nizar mejor su coleccin documental y a los usuarios de la biblioteca a encon trar mejor la informacin que necesitan; a partir de ahora, los ordenadores y las tecnologas aliadas comienzan a ayudar a difundir mejor la propia infor macin primaria. En este contexto, los catlogos en lnea deben hacer frente a dos retos fundamentales: el acceso por parte de usuarios remotos y la integracin de mltiples recursos de informacin de todo tipo. Para ello es imprescindible

mera parece ser la ms adecuada, por lo que a ella nos vamos a ceir en nuestro anlisis. La mejor opcin para que el catlogo en linea soporte la bsqueda tanto de registros bibliogrficos como de documentos a texto completo o mul timedia parece estar, por tanto, en la adopcin de un estndar como SGML (Standard Generalized Markup Language), que es uno de los pocos proto colos de informacin digital que proporciona tanto la funcionalidad esperada de un formato digital totalmente desarrollado como la funcionalidad propor cionada por una pgina impresa. SGML comenz en 1969 en IBM como GML (Generalized Markup Lan guage), nombre que, casualmente, coincida con las iniciales de los apellidos de las tres personas que lo haban desarrollado: Charles GOLDFARB, Edward MOSHER y Raymond LORIE. GML era el resultado de un temprano y bastante exitoso esfuerzo por encontrar una forma de incluir la documen tacin bsica de una organizacin de gran tamao, IBM, en un formato elec trnico fcilmente mantenible y porttil. Una dcada ms tarde, GML se con virti en SGML y, aunque Charles GOLDFARB continu siendo su principal responsable, dej de ser algo exclusivo para una organizacin concreta y se extendi por otras instituciones. Los estndares se desarrollaron bajo los auspicios primero de la American National Standards lnstitute (ANSI) y ms tarde de la lnternational Standards Organization (ISO). As, en 1986 se apro b la norrna ISO 8879:1986, "lnformation Processing -Text and Office Sys tems- Standard Generalized Markup Language (SGML)", convirtindose as en un estndar internacional. Recientemente, se ha desarrollado otra norma ISO (12083:1994, "lnformation and Documentation -Eiectronic Manuscript Preparation arid Markup"), que formaliza una implementacin concreta de SGML que es especialmente significativa para la comunidad bibliotecaria [COLE y KAZMER 1995]. SGML tiene una serie de caractersticas que lo distinguen de otros pro tocolos de intercambio de informacin [ADLER 1992; COLE y KAZMER 1995]. En primer lugar, tiene naturaleza modular, ya que la informacin pri maria que se transmite no es autosuficiente, sino que requiere informacin auxiliar (por ej. un OTO, conjuntos de entidades, etc.). Estos detalles auxilia res permiten el etiquetado documental de una clase concreta de documen tos, describen cmo deben ser representados los caracteres especiales (entidades) no incluidos en el conjunto de caracteres bsico (normalmente ASCII), definen los enlaces hacia informacin externa (por ej. imgenes, video, audio), etc. Este enfoque modular da como resultado un protocolo altamente flexible y extensible. En segundo lugar, SGML se centra en la estructura del documento ms que en su apariencia o estilo. Las etiquetas

delimitan la estructura de contenido, con posibles subdivisiones que permi ten estructuras de documentos jerrquicos complejos. Por ltimo, SGML deja los detalles acerca de cmo presentar o describir la informacin transmitida al sistema receptor. La informacin misma se pasa, junto a todos los detalles de la estructura de contenido, en la forma de etiquetas, pero poco -si no nada- es necesario decir respecto a cmo se presenta esa informacin. Esta tercera caracterstica tiene ventajas e inconvenientes. Estos lti mos se intentan aliviar con la reciente adopcin del Document Style Seman tics Specification Language (DSSSL), que permitir que los autores asocien unas "hojas de estilo" externas con los documentos [VAN HERWIJNEN 1994]. Estas hojas de estilo recomiendan cmo presentar un documento con creto o clase de documentos. DSSSL mantiene lo mejor de las dos posibili dades: el autor o editor puede aconsejar sobre la presentacin, pero los deta lles de estilo se mantienen separados del contenido, dejando al usuario final que haga uso de ese consejo o no. Por tanto, el uso de las etiquetas SGML y la adopcin del lenguaje SGML Data Type Definition (OTO) nos permite tener un formato comn para una amplia gama de tipos de datos, que van desde los registros bibliogrfi cos a los a texto completo, pasando por documentos hipertexto y multimedia -a travs del uso de un subconjunto de SGML: HTML (Hypertext Markup Language) OTO- [Bradley 1992]. De esta forma, resulta muy fcil cualquier manipulacin de los datos de la base de datos, ya que slo es necesario pro porcionar un OTO y una rutina de conversin para convertir cada nuevo tipo de datos a SGML, lo que permite extraer e indizar cualquiera de los subele mentos etiquetados. A diferencia del formato MARC, SGML no surgi con el propsito de ser usado en los sistemas bibliotecarios automatizados. No obstante, su alta flexibilidad y extensibilidad le hacen apto para ser utilizado en este contexto, aunque pueden producirse algunos problemas, entre los que destacan [COLE y KAZMER 1995]: a) No hay etiquetas obligatorias estndar en SGML. Documentos de dos editores diferentes, similares en estructura y estilo, percibidos por los usuarios como parte de un conjunto homogneo de literatu ra, pueden ser etiquetados conforme a diferentes DTD, lo que da lugar a variaciones en los nombres de las etiquetas, detalle de eti quetado, etc. b) Elementos del contenido que son equivalentes desde el punto de vista de la bsqueda y la recuperacin pueden ser etiquetados de manera diferente por diversas razones (posicin en el documento, relacin con otro contenido, consideraciones de presentacin, etc.).

e) El nivel de detalle en el etiquetado es en parte opcional, de manera que el contenido de un campo etiquetado en un documento puede no etiquetarse en otro, incluso cuando ambos documentos siguen un mismo OTO.

novedades interesantes: permite la combinacin de diferentes conjuntos de atributos en una misma bsqueda; es posible seleccionar partes concretas de un documento; ofrece servicios de visualizacin, browsing y ordenacin; se pueden utilizar diferentes idiomas y juegos de caracteres, etc. Por otro lado, ya es posible tambin dar soporte para el protocolo HTTP (Hypertext Transfer Protocol) va un gateway HTTP a Z39.50, lo que permite el acceso desde clientes VVVVW a servidores Z. De esta forma, el empleo de la norma Z39.50, del protocolo HTTP y del lenguaje HTML permi te que los usuarios remotos disfruten de prcticamente las mismas presta ciones de bsqueda que los domsticos. No obstante, hay algunas limitacio nes en la facilidad para la interaccin. Por ejemplo, operaciones tales como relevance feedback resultan ms complicadas debido a las caractersticas del protocolo HTTP, ya que ste considera cada equiparacin query/respuesta como una operacin completa. No obstante, la reciente aparicin de la prestacin denominada "keep alive" parece solucionar en cierta medida este problema. Por otro lado, el desarrollo de estas normas ha facilitado la aparicin de aplicaciones cliente capaces de "lanzar" la misma bsqueda contra diver sas bases de datos simultneamente, lo que tendr un efecto inmediato sobre el desarrollo de los OPAC. Algunos de los desarrollos futuros de estos estndares an no han sido trasladados a los productos existentes [Wood i 995], sin embargo, la celeridad con la que se estn desarrollando nuevas aplicaciones en este campo permite aventurar que los usuarios dispondrn de las funcionalidades previstas en un plazo muy breve. Por ltimo, conviene resaltar que estos estndares de interconexin bibliotecaria se desarrollan a instancias de los organismos internacionales en relacin con otras normas que afectarn tambin en el futuro al desarrollo de los OPAC. Como se ha puesto de manifiesto por parte de los miembros del programa UDT de la IFLA [HOLM 1994; ZEEMAN i995], las normas SR estn estrechamente ligadas al paquete de normas para prstamo interbi bliotecario, OS/ for tfle ILL. Aunque este tema no ser objeto de anlisis en este momento, si es una referencia til para sealar que estas aplicaciones en el futuro podran incorporar funcionalidades que en la actualidad estn slo disponibles para usuarios profesionales y no para usuarios finales. En definitiva, el binomio interconexin-estndares, como hasta ahora, facilita la eliminacin de mediaciones entre la informacin y los usuarios.

Vl.2.4.2. Interconexin
La consecucin del objetivo de que los OPAC no slo faciliten el acceso a la coleccin de la biblioteca sino tambin a recursos informativos remotos, obli ga a hacer uso de alguno de los estndares y protocolos de recuperacin de informacin que permiten la interconexin dentro del modelo cliente/servidor [BASILI 1995]. Su adopcin permite que utilizando un nico interfaz -el del ordenador cliente- se pueda consultar una gran diversidad de bases de datos, gestionadas por distintos ordenadores (servidores) remotos, indepen dientemente del software que utilicen stos. Estas normas y protocolos pueden agruparse en dos grandes conjun tos. El primero est constituido por las denominadas SR (Search and Retrie ve), que constituyen un protocolo desarrollado en el nivel de la capa de apli cacin del modelo de referencia OSI (Open Systems lnterconnection), y tie nen su origen en los proyectos Bibnett y SR Network desarrollados en Noruega, cuyo objetivo era el de ofrecer un acceso transparente a varios pro veedores de informacin escandinavos apareciendo ante el usuario como un nico sistema. Estas normas han llegado a formalizarse a nivel internacional al convertirse en las normas ISO 10162 y 1Oi63 [HARRIES 1993]. Por otro lado, se encuentra la norma norteamericana Z39.50 de la National lnformation Standards Organization (NISO), cuyas caractersticas eran muy similares en un principio. Sin embargo, a partir de 1992 ambos con juntos comienzan a diferenciarse, ya que mientras Z39.50 sigue avanzando las normas ISO se estancan, lo que produce que el nmero de sistemas que funcionan con Z39.50 sea mucho mayor. Buena parte de la culpa de esta diferenciacin la tiene el hecho de que durante bastante tiempo la ISO obli gaba a que las aplicaciones SR se hicieran en sistemas que utilizaran espe cificaciones OSI en cuanto a las normas de transporte. Dado que Internet no trabaja con OSI sino con protocolos tcp/ip, resultaba muy poco factible la implementacin de la norma 10163. Por el contrario, el hecho de que los americanos llevaran a cabo sus desarrollos tanto de clientes como de servi dores Z39.50 directamente sobre el transporte tcp/ip, ha facilitado el gran desarrollo del estndar Z39.50 [MOYA i 994]. Por tanto, parece claro que la mejor opcin es la de adoptar la norma Z39.50, que adems sigue desarrollndose para ofrecer mejores prestacio nes. De hecho, en 1995 se ha aprobado su versin 3, que incorpora algunas

VIl. APNDICE
Las pginas que siguen contienen una muestra de bsquedas realiza das en diferentes OPAC de bibliotecas espaolas al objeto de poder compa rar las prestaciones de los sistemas elegidos como muestra. La seleccin se ha hecho entre bibliotecas que tengan en fases avanzadas su proceso de informatizacin de tal forma que sea posible realizar operaciones de bs queda similares que faciliten la comparacin. En las primeras pantallas se recogen las bsquedas realizadas mediante accesos remotos al ARIADNA de la Biblioteca Nacional (6 primeros grficos), al ALEPH del sistema de bibliotecas del CSIC (4 siguientes), al LIBERTAS de la biblioteca de la Uni versidad Complutense (6 siguientes) y al VTLS de la biblioteca de la Univer sidad Autnoma de Barcelona (6 siguientes). En todos los casos se ha realizado la misma bsqueda bibliogrfica a fin de facilitar la posible comparacin. Como puede observarse, y a modo de conclusin, podemos decir que todos estos OPAC permiten el acceso a los documentos a travs de los ndices de punto de acceso, facilitando la com binacin mediante el uso de operadores booleanos de las entradas seleccio nadas. Esto nos permite concluir que ninguno de ellos pasa de ser un siste ma de segunda generacin segn la terminologa de Hildreth (vase epgra fe 11.2.2): -Sus registros no tienen resumen, su indizacin es escasa y el voca bulario utilizado a menudo no es representativo del contenido de los documentos referenciados. - Sus bases de datos no estn dedicadas a temas especficos, sino que recogen toda la coleccin de la biblioteca, por lo que cubren muy diversas disciplinas. -Las bases de datos de los OPAC estn compuestas bsicamente de monografas y descripciones genricas de las publicaciones peridi cas. -Por ltimo, el tipo de bsqueda basica que permiten es la que se rea liza a travs de los ndices de punto de acceso, bien de forma direc ta o a travs de browsing alfabtico. El seguimiento de la secuencia de pantallas en cada caso permite reproducir el proceso de la consulta a fin de valorar las posibilidades de cada sistema. Aunque las diferencias entre las interfaces pueden ser notables en algunos casos, en esencia los ejemplos demuestran la homogeneidad de las prestaciones de recuperacin de los diferentes motores de bsqueda. Se trata en todos los casos de sistemas basados en la combinacin de ficheros

de trminos de bsqueda y ficheros invertidos que facilitan el enlace de los trminos significativos con la referencia que los contiene, lo que permite la combinacin de dichos trminos mediante operadores lgicos. El acceso a los OPAC desde que existe el mundo Web dentro de la Internet est evolucionando rpidamente. En la actualidad es posible encon trar gran cantidad de catlogos que pueden ser accedidos cumplimentando formularios web. Por esta razn es posible encontrar en la parte espaola de la Internet algunos catlogos especialmente de bibliotecas universitarias, accesibles por esta va. Las pantallas que siguen son algunas muestras de las mismas bsquedas realizadas anteriormente usando un cliente web: Biblioteca de la Universidad Carlos 111 (3 grficos siguientes) y Sistema de bibliotecas del CSIC (4 siguientes). Esta modalidad de bsqueda no ofrece mejores prestaciones a los usuarios que la anterior, de hecho podemos encontrar menores opciones en las consultas y menor nmero de operadores que en las realizadas de forma remota va telnet. La nica ventaja para el usuario es la amigabilidad: la sim plificacin de las opciones y la eliminacin de los comandos y mens hace de la modalidad web un sistema de acceso a la informacin bibliografica nor malizada para usuarios inexpertos y poco exigentes. En cambio, ni siquiera ofrece la posibilidad de una opcin de navegacin (browsing) a travs de ndices, como podemos ver en interfaces tradicionales. Como se puede intuir esta modalidad de OPAC slo supone un cam bio de interfaz, puesto que el motor de bsqueda es el mismo que en la modalidad de mens o comandos (comprese la bsqueda a travs de ALEPH va telnet con la que sigue va web). Por ltimo, las tres pantallas fina les contienen los accesos iniciales a los servicios Hytelnet, Webcats y Euro pagate respectivamente. Los dos primeros pretenden ser directorios electr nicos de acceso a OPAC en todo el mundo por una u otra modalidad. Mien tras que el tercero se basa en un protocolo de acceso normalizado a bases de datos bibliogrficas (Z39.50), que permite entre otras cosas la consulta multicatlogo, lo que supone una mejora considerable para los usuarios que podran obtener respuestas de diferentes catlogos lanzando una sola con sulta.

ARIADNA. nibliotcca Nacional

ALEPH. Consejo Superior de Investigaciones Cientficas

LIBERTAS. Universidad Complutense

VTLS. Universidad Autnoma de Barcelona

Cf.b.,-C;r,iJw"Jo\

1<' co i!ril i Cwclo j( Celt; tdici0n, 1 i.<Jlroduccin y_ notas de Racur.l Asi 'l (1987)

[!O 1
l1!fn

Cela;'Canlllo J.:. t

-nw Willr.ilo Joif: Ceb; f.C.itiiltl de.


(]9 5)

Ctb.;Camihl'Jo;e ., ". <-.,.. 3 a cn_de-Saulld:iz 1 Ga:ni!.o}o i-Cdr (1 94) ::

[iWrl Cd;,; Camilo Jos


4 :iicidor:edia dd_ eroti1m0 (1982) ::tb. Camil.:. Jo::t

i;:; .J!o ].)Cda

L J 5 J(oe'-.d<>

flifn

G ( :a- lerntmd., en 'tomo : nrticubJ ( _) f Crum!0

CIRBJC- Libros. Consulta n listas


'.'un,:dt:J ; ,. '' dt: !r,utor

u,,Jn<..,. lut.ro.,;

2J

::.::J

EJ ''" '-ti< ' jiJ-" :::r, u l'' ::n ,:.; ;:


1 1

.......................................................

ClHBlC ... Libros 1RS I)ueurnentos en forrnato ahiYViado

HYTELNET on the WorldWideWeb


HYTELNET is closlnn dnwn!

Te!netMe<:aeE"zd

::;,,-, '""'" tho J.w>(tml Tehet


Inlorr.;t(i!M;Z'7

Ar,;l;!

Tc!:t,tl::'>'

T'i:Letf1113 7n eo,:.>N h:vs

,,,, 'wd.,"ATr :..w. .l::hl.<:..J


r.-_to!o"-'"' tnk lo ""b:Oohtto" c."""

.B.
HYlLHET i: w: tw by f'eu,r Soou Hc,th::m LiJm Intro>::Solo!!o_: Sa.okalocn, Sa:k. C>nad
moo::(.i)_hbr;u"l h.,-k-\ee d.;!

EYTELHll'weh "'""'" Fic,"oi

'"tic

mr Gu slbookl

:?.t:Jl!mv Gu,:,iboold

Welcome to Europagate
Geof!rnphicnl Tndc,:

Lih1<1rv-Tvpe Index
Vcm\or Imlex Vendar Home Pac.es 239.50 Rcsourccs

MuJtlfuncUonul Gutewuy for InformaUon Retrleval Proiocols.

Relntcd Resourcc Add Yom Cutalo rc Crt: :d b I'dtor .S ro U. nnd Do u!\ltednnaJ[ Unv; rsity of So.skarchewan Lihrories
Scarch wcbCATS Usae Stn!istics Link lo HYTELNEf

Information, services and software:


,\hnm tlm nmjPrt Proje1:r nrwrts

Varwu:;ov rvww:;, Fu!!/:;[ ofp::!rtiCJf-){!111s.


\Vth cattwav nrvitu

R<ad or prmt our repor/.7


Artkll's mul otlwr bits of infnrmutlon

Link to Publishers' Camloc:ucs


TI1e \VEBCAT-L Mailinc. Lior Archive[! Biblia Tcch Rcview: a ncw Web only publication
designed to kecp aH thosc imercsted in libr.u)'

Smrch SR m::i Z3:J.50 :.;;::r>cr::fron:your \I'Cb braw:;cr


EmniJ C\l!!'Wll\' SN>iCP

Supp!cnii:ntar:; tnfrm.:J.!!O!l
Conttli't infnnmlliun

automntion up-to-dnte with the C!UTcnt f..c.'>l dcvclopin,g


librmy automillion lcchnologico und
lWWs.

&r:;rch SR and 2:39.50 :::.:rvcr::: from )'D!iT CI!Ui{ dumt


Sornnup dl nihttr!on

Who to ccnract m!d hDW

Eom;lo.ld our ::o;fware

VIII. REFERENCIAS BIBLIOGRFICAS

BATES, M. J. [1977b], System meets user: problems in matching subject search terms. lnformation Processing and Management, 13(6), 367-375. BATES, M. J. [1979], Idea tactics. Joumal of the American Society for lnformation Science, 30(5), 280-289. BATES, M. J. [1986a], The fallacy of the perfect thirty-item online search. RO, 24(1), 43-50. BATES, M. J. [1986b], Subject acces in online catalogs: a design model. Journal of the American Society for lnformation Science, 37(6), 357-376. BATES, M. J. [1989a], The design of browsing and berrypicking techniques for the online search interface. Online Review, 13(5), 407-424. BATES, M. J. [1989b], Rethinking subject cataloging in the online environ ment. Library Resources and Technical Services, 33(4), 401-412. BATES, M. J. [1990], Where should the person stop and the information search interface start? lnformation Processing and Management, 26(5), 575-591. BAYMAN, F.; MAYER, R. E. [1984], lnstructional manipulation de users' men tal models for electronic calculators. lntemational Journal of ManMachine Studies, 20(3), 189-199. BAWDEN, D. [1986], lnformation systems and the stimulation of creativity. Journal of lnformation Science, 12(5), 203-216. BAWDEN, D. [1993], Browsing: theory and practice. Perspectives in InformaNon Management, 3(1), 71-85. BEAULIEU, M.; BORGMAN, C. L. [1996], A new era for OPAC research: introduction to special topic issue on current research in online public access systems. Joumal of the American Society for lnformation Science, 47(7), 491-492. BEHESHTI, J. [1992], Browsing through public acces catalogs. lnformation Technology and Libraries, 11(3), 220-228. BELEW, R. K. [1989], Adaptive information retrieval: using a connectionist representation to retrieve and learn about documents. Proceedings of the 12th lnternation SIGIR Conference on Research and Development in lnformation Retrieval. New York: ACM, 11-20. BELKIN, N. J. [1980], Anomalous state o knowledge as a basis for informa tion retrieval. Canadian Joumal of lnformation Science, f<3), 133-143. BELKIN, N. J.; CROFT, W B. [1987], Retrieval techniques. Annual Review of lnformation Science and Techno/ogy, 22, 109-146. BELKIN, N. J.; MARCHETTI, P. G.; COOL, C. [1993], BRAQUE: design of an interface to support user interaction in information retrieval. lnformation Processing and Management, 29(3), 325-344.

ADLER, S. [1992], The birth of a standard. Jaumal of the American Society for lnformation Science, 43(8), 556-558. AKEROYD, J. [1990], lnformation seeking in online catalogues. Joumal of Documentation, 46(1), 33-52. ALLEN, B. [1991], Topic knowledge and online catalog searcl1 formulation. Library Quarterly, 61(2), 188-213. ALLEN, B. [1993], lmproved browsable displays: an experimental test. lnformation Technology and Libraries, 12(2), 203-208. ALLEN, B. [1994], Perceptual speed, learning and information retrieval per formance. SIG/R'94: proceedings ofthe seventeenth annua/ internatiana/ ACM!SIGIR Conference on Research and Development in lnformation Retrieval. London: Springer, 71-80. ALURI, R.; KEMP, D. A; BOLL, J. J. [1991], Subject ana/ysis in online catalogs. Littleton, CO: Libraries Unlimited. APTED, S. M. [1971], General purposive browsing. Library Association Record, 73(12), 228-230. ARRET, L. [1985], Can online catalogs be too easy? User easy is not user friendly if progressive learning and system mastery are sacrificed. American Libraries, 16(2), 118-120. ATHERTON, P. [1978], Books are for use: final report ofthe Subject Access Project to the Council on Library Resources. Syracuse, NY: University School of lnformation Studies. AVRAM, H. D. et al. [1967], Fields of information on Library o Congress sub ject catalog cards: analysis of a random sample, 1950-1964. Library Quarterly, 37(2), 180-192. BAKER, B. K.; SANDORE, B. A [1987], The online catalog and instruction: maintaining the balance on the lag. En: Reichel, M. y Ramey, M. A, eds. Conceptual frameworks for bibliographic education. Littleton, CO: Libraries Unlimited, 192-206. BAKER, N. [1994], Discards. The New Yorker, april 4, 64-86. BAKER, S. L. [1986], Overload, browsers and selections. Library and lnformation Science Research, 8(4), 315-329. BASILI, C. [1995], Subject searching for inormation: what does it mean in today's Internet environment? The Electronic Library, 13(5), 459-466. BATES, M. J. [1977a], Factors affecting subject catalog search success. Joumal ofthe American Society for lnformation Science, 28(3), 161-169.

BELKIN, N. J.; ODDY, R. N.; BROOKS, H. M. [1982], ASK for inormation retrieval: Part l. Background and theory. Journal of Oocumentation, 38(2), 61-71. BELKIN, N. J.; SARACEVIC, T. [1992], Design principies for third-generation online public access catalogs: taking account of users and library use. Annual Review of OCLC Researcil, july 1991-june 1992,43-45. BELKIN, N. J.; VICKERY, A. [1985], /nteraction in information systems. Lon don: British Library. BELKIN, N. J. et al. [1990], Taking account of user tasks, goals and behavior for the design o online public access catalogs. ASIS'90: proceedings of lile 53rd AS/S annua/ meeting (Taranta, november 4-8 1990). Med ford, NJ: Learned lnorrnation, 69-79. BELKIN, N. J. et al. [1995], Combining the evidence of multiple query repre sentations for inforrnation retrieval. lnformation Processing and Management, 31(3), 431-448. BELLARDO, T. [1985], An investigation of online searcher traits and their relationship to search outcome. Journal of lile American Society for /nformation Science, 36(4), 241-250. BENEST, l. D.; MORGAN, G.; SMITHURST, M. D. [1987], A humanised inter face to an electronic library. INTERACT'87: proceedings of lile 2nd /F/P'87 lnternational Conference on Human-Computer lnteraction (Stuttgart, 1-14 september 1987). Amsterdam: North-Holland, 905-91 O. BLACKSHAW, L.; FISCHHOFF, B. [1988], Decision rnaking in online sear ching. Journal of lile American Society for lnformation Science, 39(6), 369-389. BLAIR, D. C. [1980], Searching biases in large interactiva document retrieval systems. Journal of liJe American Society for lnformation Science, 31(4), 271-277. BLAIR, D. C. [1986], lndeterminacy in the subject access to docurnents. Informa!ion Processing and Management, 22(3), 229-241. BOOKSTEIN, A. [1985], Probability and uzzy-set applications to information retrieval. Annua/ Review of lnformation Science and Tec!Jnology, 20,

BORGMAN, C. L. [1986b], Why are online catalogs hard to use? Lessons learned from information-retrieval studies. Journal of the American Society for lnformation Science, 37(6), 387-400. BORGMAN, C. L. [1989], All users of information retrieval systems are not created equal: an exploration into individual differences. lnformation Processing and Management, 25(3), 237-251. BORGMAN, C. L. [1996], Why are online catalogs still hard to use? Jouma/ of lile American Society for lnformation Science, 47(7), 493-503. BORGMAN, C. L.; CHIGNELL, M. H.; VALDEZ, F. [1989], Designing an infor rnation retrieval interface based on children's categorization of know ledge: a pilot study. ASIS'89: proceedings of tile 52nd AS/S annua/ meeting (Washington, OC, october 29-november 2 1989). Medford, NJ: Learned lnformation, 81-95. BORGMAN, C. L. et al. [1990], Children's use of an interactiva catalog o science rnaterials. ASIS'90: proceedings ofthe 53rd AS/S annual meeting (Toronto, november 4-8 1990). Medford, NJ: Learned lnformation, 55-68. BORGMAN, C. L. et al. [1991], The Science Library Catalog Project: compa rison of children's searching behavior in a direct rnanipulation and a keyword search system. ASIS'91: proceedings of t11e 54th AS/S annual meeting (Washington, OC, october 27-311991). Medford, NJ: Learned lnormation, 162-169. BORGMAN, C. L. et al. [1995], Children's searching behavior on browsing and keyword online catalogs: the Science Library Catalog Project. Joumal of the American Society for Informa/ion Science, 46(9), 663-684. BRADLEY, N. [1992], SGML concepts. As/ib Proceedings, 44(7/8), 271-274. BROOKS, H. M. [1987], Expert systems and intelligent information retrieval. lnformation Processing and Management, 23(4), 367-382. BUCKLAND, M. K. [1987], Combining electronic mail with online retrieval in a library context. lnformation Technology and Libraries, 6(4), 266-271. BUCKLAND, M. K. et al. [1992], OASIS: a front-end for prototyping catalog enhancements. Library High Tecil, 10(4), 7-22. BURGIN, R. [1995], The retrieval effectiveness of five clustering algorithms as a function o indexing exhaustivity. Jouma/ of the American Society for Informa/ion Science, 46(8), 562-572. BUSH, V. [1945], As we may think. Atlantic Mont/Jiy, 176(1), 101-108. BYRNE, A.; MICCO, M. [1988], lmproving subject access in an OPAC: the ADFA experiment. College and Researcil Libraries, 49(4), 432-441.

117-H2.
BORGMAN, C. L. [1984], Psychological research in human-computer interac tion. Annual Review of lnformation Science and Tecilnology, 19, 33-64. BORGMAN, C. L. [1986a], The user's rnental rnodel oan information retrie val system: an experiment on a prototype online catalog. lnternational Journal of Man-Maciline Studies, 24(1 ), 47-64.

CAN, F. [1993], Incremental clustering for dynamic information processing. ACM Transactions onlnformation Systems, 11(2), 143-164. CAN, F. [1994], On the efficiency of best-match cluster searches. lnformation Processing and Management, 30(3), 343-361. CAN, F:,OZKARAHAN, E. A. [1984], Two partitioning-type clustering algo rithms. Journal of the American Society for lnformation Science, 35(5), 268-276. CAN, F.; OZKARAHAN, E. A. [1989], Dynamic cluster maintenance. lnformation Processing and Management, 25(3), 275-291. CARPENTER, G. et al. [1992], Fuzzy artmap: a neural network arquitecture for incremental supervised learning of analog rnultidimensional maps. IEEE Transactions on Neura/ Networks, 3(6), 698-713. CHAN, L. M. [1989], Library of Congress class numbers in online catalog searching. RQ, 28(3), 530-536. CHAN, L. M. [1990], The LC in an online environment. Cataloguing and C/as sification Quarterly, 11(1), 7-25. CHANG, S.-J.; RICE, R. E. [1993], Browsing: a multidirnensional framework. Annual Review of lnformation Science and Technology, 28, 231-275. CHEN, H.; DHAR, V. [1990], User misconceptions of online information retrieval systems. lntemational Joumal of Man-Machine Studies, 32(6), 673-692. CHERRY, J. M.; CLINTON, M. [1992], OPACs at five Ontario universities: a profile of users and user satisfaction. Canadian Library Journal, 49(2), 123-133. CHERRY, J. M.; TURNER, J.; CLINTON, M. [1990], Onl'lne publ'lc access catalogues (OPACs): design of instructional software for user training. ASIS'90: proceedings of the 53rd AS/S annual meeting (Taranta, november 4-8 1990). Medford, NJ: Learned lnformation, 143-150. CLEVERDON, C. W. [1984], Optimizing convenient online access to biblio graphic databases. lnformation Services and Use, 4(1), 37-47. CLEVERDON, C. W.; KEEN, M. [1966], Factors determining the performance of indexing systems (vol. 1: Design: vol. 2: Results). Cranfield: College of Aeronautics. COCHRANE, P. A. [1986], lmproving LCSH for use in online catalogs. Little ton, CO: Libraries Unlimited. COCHRANE, P. A; MARKEY, K. [1983], Catalog use studies -since the intro duction of online interactive catalogs: impact on design for subject access. Library and lnformation Science Research, 5(4), 337-363.

COLE, T. W.; KAZMER; M. M. [1995], SGML as a component of the digital library. Library Hi Tech, 13(4), 75-90. COLLANTES, L. Y. [1995], Degree of agreement in naming objects and con cepts for information retrieval. Journal of the American Society for lnformation Science, 46(2), 116-132. CONGREVE, J. [1986], Problems of subject access: (i) automatic generation of printed indexes and online thesaural control. Program, 20(2), 204-210. CONNELL, T. H. [1995], Subject searching in online catalogs: metaknowled ge used by experienced searchers. Journal of the American Society for lnformation Science, 46(7), 506-518. COOPER, W. S. [1988], Getting beyond Boole. lnformation Processing and Management, 24(3), 243-248. COUSINS, S. A. [1992], Enhancing subject access to OPACs: controlled voca bulary vs naturallanguage. Journal of Documentation, 48(3), 291-309. COVE, J. F.; WALSH, B. C. [1988], Online text retrieval via browsing. lnformation Processing and Management, 24(1), 31-37. CRAWFORD, W. [1987], Patron access: issues for online cata/ogs. Bastan: G. K. Hall. CRAWFORD, W. [1992], The online catalog book: essays and examples. New York: G. K. Hall. CROFT, W. B. [1980], A model of cluster searching based on classification. lnformation Systems, 5(3), 189-195. CROFT, W. B. [1995], What do people want from information retrieval? the top 10 research issues for companies that use and seiiiR systems. DLib Magazine, november 1995, http://ciir.cs.umass.edulinfolpeoplel stafflcroft.html. CROFT, W. B.; THOMPSON, R. H. [1987], 1: a new approach to the design of document retrieval systems. Journal of the American Society for lnformation Science, 38(6), 389-404. CROFT, W. B. et al. [1989], Retrieving docurnents by plausible inference: an experimental study. lnformation Processing and Management, 25(6), 599-614. CULKIN, P. B. [1989], Rethinking OPACs: the design of assertive information systems. lnformation Teclmology and Libraries, 8(2), 172-177. CUTTER, C. A. [1904], Rules for a dictionary catalog, 4th ed. Washington, OC: U. S. Government Printing Office. DALRYMPLE, P. W.; YOUNGER, J. A. [1991], From authority control to infor med retrieval: framing the expanding domain of subject access. College and Research Libraries, 52(2), 139-149.

DATTOLA, R. T. [1973], Automatic classification in document retrieval systems. Doctoral Dissertation, Comell University, lthaca, NY. DAVIES, R. [1989], The creation of new knowledge by information retrieval and classification. Journal of Documentation, 45(4), 273-301. DERVIN, B. [1983], lnformation as user construct: the relevance of perceived information needs to synthesis and interpretation. En: Ward, S. A y Reed, L. J., eds. Knowledge structures and use: implications for synt!Jesis and interpretation. Philadelphia: Temple University Press, 1983, 153-184. DERVIN, B.; NILAN, M. [1986], lnformation needs and uses. Annual Review of lnformation Science and Tec/mo/ogy, 21, 3-33. DILLON, M. [1992], The graphical browse project. Annua/ Review of OCLC Researc!J, july 1991-june 1992, 22-25. DOSZKOCS, T. E. [1983], CITE NLM: natural-language searching in an onli ne catalog. lnformation Tec!Jnology and Libraries, 2(4), 364-380. DOSZKOCS, T. E. [1986], Naturallanguage processing in information retrie val. Journal of t!Je American Society for lnformation Science, 37(4), 191-196. DRABENSTOTT, K. M. et al. [1990], Analysis of a bibliographic database enhanced with a library classification. Library Resources and Tec!Jnica/ Services, 34(2), 179-198. DYKSTRA, M. [1988], LC subject headings disguised as a thesaurus. Library Journal, 113(2), 42-46. EDWARDS, A D. N. [1996], The rise of tl1e graphical user interface. Library Hi Tec!J, 14(1), 46-50. EDWARDS, D. M.; HARDMAN, L. [1989], 'Lost in hyperspace': cognitive mapping and navigation in a hypertext environment. En: McAieese, R., ed. Hypertext: t!Jeory into practice. Norwood, NJ: Ablex, 105-125. EL-HAMDOUCHI, A [1987], T!Je use of inter-document relations!Jips in informa!ion retrieval. PhD thesis. University of Sheffield (UK). ELLIS, D. [1989], A behavioral approach to information retrieval system design. Journal of Documentation, 45(3), 171-212. ELLIS, D. [1990], New !Jorizons in informa/ion retrieva/. London: Library Asso ciation. ELLIS, D. [1996], The dilemma of measurement in information retrieval rese arcll. Journal of t!Je American Society for lnformation Science, 47(1), 23-36.

FAYEN, E. G. [1983], T!Je online catalog: improving public access to fibrary materials. White Plains, NY: Knowledge lndustry Publications. FAYEN, E. G. [1989], Loading local machine-readable data files: issues, pro blems and answers. Informa/ion Tec!Jnology and Libraries, 8(2), 132-137. FERNANDEZ-MOLINA, J. C.; PEIS, E. [1995], Anlisis de los mtodos utili zados en la mejora de la calidad del acceso por materias en los OPACs. 5as Jornadas Catalanas de Documentacin (Barcelona, 2527 octubre 1995). Barcelona: COBDC, 1995,471-479. FOSS, C. L. [1989], Tools for reading and browsing hypertext. Informa/ion Processing and Management, 25(4), 407-418. FOX, M. S.; PALAY, A. J. [1981], Machine-assisted browsing for the naive user. En: Divilbiss, J. L., ed. Public access to library automation. Urba na, IL: University of lllinois at Urbana-Champaign, 77-97. FREEMAN, R. R.; ATHERTON, P. [1968], File organization and search stra tegy using the Universal Decimal Classification in mechanized referen ce retrieval systems. Mec/Janized information storage, retrieval and dissemination: proceedings of t!Je F/01/FIP joint conference. Amster dam: North-Holland, 122-152. FROST, C. 0.; DEDE, B. A [1988], Subject heading compatibility between LCSH and catalog files of a large research library: a suggested model for analysis. Informa/ion Tec!Jnology and Libraries, 7(3), 288-299. GELLER, V.; LESK, M. [1983], An online library catalog offering menu and keyword user interfaces. Proceedings of /he 1983 Nationa/ Online Meeting (New York, apri/12-14 1983). Medford, NJ: Learned lnforma tion, 159-165. GENTNER, D.; NIELSEN, J. [1996], The anti-Mac interface. Communications of the ACM, 39(8), 70-82. GERHAN, D. R. [1989], LCSH in vivo: subject searching performance and strategy in the OPAC era. Journa/ of Academic Librarians!Jip, 15(2), 83-89. GRIFFITHS, A; LUCKHURST, C.; WILLETT, P. [1986], Using interdocument similarity information in document retrieval systems. Journal of the American Sacie/y for lnformation Science, 37(1), 3-11. GRIFFITHS, A.; ROBINSON, L. A; WILLETT, P. [1984], Hierarchic agglo merative clustering methods for automatic document classification. Journal of Documenta/ion, 40(3), 175-205. GROSSBERG, S. [1982], Studies of mind and brain: neural principies of fearning, perception, development, cognition and motor control. Bastan: Reidel Press.

HANCOCK, M. M. [1987], Subject searching behaviour at the library catalo gue and at the shelves: implications for online interactive catalogues. Jau mal of Documentation, 43(4), 303-321. HANCOCK-BEAULIEU, M. M. [1989], Online catalogues: a case for the user. En: Hildreth, C.R., ed. The online catalogue: developments and directions. London: Library Association, 25-46. HANCOCK-BEAULIEU, M. M. [1990], Evaluating the impact of an online library catalogue on subject searching behaviour at the catalogue and at the shelves. Journal of Documentation, 46(4), 318-338. HANCOCK-BEAULIEU, M. M. [1992], Userfriendliness and human-computer interaction in online library catalogues. Program, 26(1), 29-37. HANCOCK-BEAULIEU, M. M.; MITEV, N. N. [1989], Online library catalogs: the interactive dimension. En: Oppenheim, C., ed. Perspectives in information management, 1. London: Butterworths, 89-118. HARRIES, S. [1993], Networking and telecommunications for information systems: an introduction to informa/ion networking. London: Library Association. HARRISON, A.D.; ROOS, F.A.; THOMAS, RE. [1995], (Semi) automatic capturing of bibliographic information from journal contents pages for inclusion in online library catalogues: the RIDDLE Project. The Electronic Library, 13(1), 15-20. HENRY, H. K. [1991], Human-computer interfaces and OPACs: introductory thoughts related to INNOPAC. Library Hi Tech, 9(2), 63-68. HERNER, S. [1970], Browsing. En: Kent, A. y Lancour, H., eds. Encyclopedia of library and informa/ion science, 3, 408-415. HERTZUM, M.; FROKJAER, E. [1996], Browsing and querying in online documentation: a study of user interfaces and the interaction process. ACM Transactions on Computer-Human lnteraction, 3(2), 136-161. HICKEY, T.; PRABHA, C. G. [1990], Online public catalogs and large retrie vals: methods or organizing, reducing and displaying. ASIS'90: proceedings of the 53rd AS/S annual meeting (Taranta, november 4-8 1990). Medord, NJ: Learned lnformation, 110-116. HILDRETH, c. R. [1982], The concept and mechanics of browsing in an onli ne library catalog. Proceedings of the 3rd National Online Meeting (New York, march 30-apri/1 1982). Medford, NJ: Learned lnformation, 181-196. HILDRETH, c. R. [1983], To Boolean or not to Boolean? lnformation Technology and Libraries, 2(3), 235-237.

HILDRETH, C. R. [1984], Pursuing the ideal: generations of online catalogs. En: Aveney, B. y Butler, B., eds. Online catalogs, online reference: converging trends. Chicago: A.L.A., 31-56. HILDRETH, C. R. [1985], Online public access catalogs. Annua/ Review of lnformation Science and Teclmology, 20, 233-285. HILDRETH, C. R. [1987], Beyond Boolean: designing the next generation of online catalogs. Library Trends, 35(4), 647-667. HILDRETH, C. R. [1988], Online library catalogs as information retrieval sys tems: what can we learn rom research? En: Yates-Mercer, P. A., ed. Future trends in informa/ion science and techno/ogy. London: Taylor Graham, 9-25. HILDRETH, C. R. [1989a], General introduction; OPAC research: laying the groundwork for future OPAC design. En: Hildreth, C. R., ed. The online catalog: deve/opments and directions. London: Library Association, 1-24. HILDRETH, C. R. [1989b], lntel/igent interfaces and retrieval metlwds for subject searching in bibliographic retrieval systems. Washington, OC: Library of Congress. HILDRETH, C. R. [1993], An evaluation of structured navigation for subject searching in online catalogues. PhD. dissertation. The City University, London. HILDRETH, C. R. [1995], The GUI OPAC: approach with caution. The PublicAccess Computer Systems Review, 6(5),http://info.lib.uh.edu/pacs rev.html. HIRSH, S. G.; BORGMAN, C. L. [1995], Comparing children's use of brow sing and keyword searching on the Science Library Catalog. AS!S'95: proceedings of the 58th AS/S annua/ meeting (Chicago, october 9-12 1995). Medford, NJ: Learned lnformation, 19-26. HJERPPE, R. [1986], Project HYPERCATalog: visions and preliminary con ceptions ofan extended and enhanced catalog. En: Brookes, B. c., ed. lntelligent information systems for the information society. Amsterdam: North-Holland, 211-232. HJERPPE, R. [1989], HYPERCAT at LIBLAB in Sweden: a progress report. En: Hildratl1, C. R., ed. The online catalog: deve/opments and directions. London: Library Association, 177-209. HOLLEY, R. P. [1987], Classification in the online catalog. En: Hewitt, J. A., ed. Advances in library automation and networking, 1. Greenwich, CT: JAI Press, 57-88.

HOLM, L. A., ed. [1994], Models for open system protocol development: a technical report. UDT Series on Data Communication Techno/ogies and Standards for Librarles, http://www.nlc-bnc.ca/iflaNI/5/reports/ rep6/rep6.html., HUESTIS, J. C. [1988], Clustering LC Classiication numbers in an online catalog for improved browsability. lnformation Technology and Librarles, 7(4), 381-393 HULSER, R. P. [1992], Overview of graphical user interfaces. En: Ra, M., ed. Advances in online public access catalogs, 1. Westport, CT: Meckler, 1-8. HUNTER, R. N. [1991], Successes and failures of patrons searching the onli ne catalog a a large academic library: a transaction lag analysis. RQ, 30(4), 395-402. INGWERSEN, P. [1982], Search procedures in the library analysed from the cognitiva point of view. Journal of Documentation, 38(3), 165-191. INGWERSEN, P. [1992], lnformation retrieval interaction. London: Taylor Graham. INGWERSEN, P.; WILLETT, P. [1995], An introduction to algorithmic and cognitiva approaches for information retrieval. Libri, 45(3/4), 160-177.
1

KHOO, C. S. G.; POO, D. C. C. [1994], An expert system approach to online catalog subject searching. lnformation Processing and Management, 30(2), 223-238. KNUTSON, G. [1991], Subject enhancement: report on an experiment. College and Research Libraries, 52(1), 65-79. KOSKO, B. [1992], Neural networks and fuzzy systems. Englewoods Cliffs, NJ: Prentice-Hall. KRIKELAS, J. [1972], Catalog use studies and their implications. Advances in librarians/Jip, 3, 195-220. KUHLTHAU, C. C. [1991], lnside the search process: information seeking from the user's perspectiva. Journal of the American Society for lnfo1c mation Science, 42(5), 361-371. KWASNIK, B. H. [1992], The functional components of browsing. Annua/ Review of OCLC Research, july 1991-june 1992, 53-56. KWOC, K. L. [1989], A neural network for probabilistic information retrieval. Proceedings of the 12th lnternation S!GIR Conference on Research and Deve/opment in lnformation Retrieva/. New York: ACM, 21-30. LANCASTER, F. W.; ELLIKER, C.; CONNELL, T. H. [1989], Subject analysis. Annual Review of lnformation Science and Technology, 24, 35-84. LANCASTER, F. W. et al. [1991], ldentifying barriers to effective subject access in library catalogs. Library Resources and Technica/ Services, 35(4), 377-391. LARSON, R. R. [1986], Workload characteristics and computar system utilization in on/ine library cata/ogs. Doctoral dissertation, University of California at Berkeley. LARSON, R. R. [1989], Managing information overload in online catalog sub ject searching. ASIS'89: proceedings ofthe 52nd AS/S annual meeting (Washington, OC, 30 october-4 november 1989). Medford, NJ: Lear ned lnformation, 129-135. LARSON, R. R. [1991a], Between Scylla and Charybdis: subject searching in the online catalog. En: Godden, l. P., ed. Advances in librarianship, 15. San Diego: Academic Press, 175-236. LARSON, R. R. [1991b], Classification clustering: probabilistic information retrieval and the online catalog. Library Quarter/y, 61(1), 133-173. LARSON, R. R. [1991c], The decline of subject searching: long-term trends and patterns o index use in an online catalog. Journal of the American Society for lnformation Science, 42(3), 197-215.

NGWERSEN, p:,WORMELL, l. [1988], Means to improved subject access and representation in modern information retrieval. Libri, 38(2), 94-119.

JANOSKY, B.; SMITH, P. J.; HILDRETH, C. R. [1986], Online library catalog systems: an analysis of user errors. /nternational Journal of ManMachine Studies, 25(4), 573-592. JARVELIN, K.; VAKKARI, P. [1993], The evolution of library and inormation science 1965-1985: a content analysis of journal articles. lnformation Processing and Management, 29(1), 129-144. KANTOR, P. B. [1994], lnformation retrieval techniques. Annua/ Review of /nformation Science and Technology, 29, 53-90. KASK E, N. K. [1988a], A comparativa study of subject searching in an OPAC among branch libraries of a university library system. lnformation Technology and Libraries, 7(4), 359-372. KASK E, N. K. [1988b], The variability and intensity over time o subject sear cl1ing in an online public access catalog. lnformation Technology and Librarles, 7(3), 273-287. KASK E, N. K.; FERGUSON, D. [1980], On-line public access to library bibliographic data bases: developments, issues and priorities. Columbus, OH: OCLC.

LARSON, R. R. [1992a]. Evaluation of advanced retrieval techniques in an experimental online catalog. Journal of the American Society for lnformation Science, 43(1), 34-53. LARSON, R. R. [1992b], Experiments in automatic Library of Congress Clas sification. Journa/ of the American Society for lnformation Science, 43(2), 130-148. LARSON, R. R.; GRAHAM, V. [1983], Monitoring and evaluating MELVYL. lnformation Tec/mology and Libraries, 2(1), 93-104. LARSON, R. R. et al. [1996]. Cheshire 11: designing a next-generation online catalog. Journal of the American Society for lnformation Science, 47(7), 555-567. LEE, S. [1985]. Online keyword catalogue at the University of Sussex. En: Bryant, P., ed. Keyword catalogues and the free language approach. Bath: Centre for Catalogue Research. LEVINE, M. M. [1969], An essay on browsing. RQ, 9(1), 35-36. LEVY, D. M.; MARSHALL, C. C. [1995], Going digital: a look at assumptions underlying digitallibraries. Communications ofthe ACM, 38(4), 77-84. LIPETZ, B.-A; PAULSON, P. J. [1987]. A study o the impact o introducing an online subject catalag at the New York State Library. Library Trends, 35(4), 597-617. LIU, S.; SVENONIUS, E. [1991]. DORS: DDC online retrieval system. Library Resources and Technica/ SeNices, 35(4), 359-375. LOSEE, R. M. [1990]. The science of informa!ion: measurement and applications. San Diego: Academic Press. LUDY, L. E. [1985]. OSU libraries'use of Library of Congress Subject Autho rities File. lnformation Tec/mology and Libraries, 4(2), 155-160. LYNCH, C. A [1987]. The use of heuristics in user interfaces for online infor mation retrieval systems. ASIS'87: proceedings of the 50th AS/S annual meeting (Boston, 4-8 october 1987). Medord, NJ: Learned lnforrnation, 148-152. LYNCH, C. A [1989], Large database and multiple database problemas in online catalogs. OPACs and beyond: proceedings of a joint meeting of the British Library, DBMIST and OCLC. Dublin, OH: OCLC, 51-55. MANDEL, C. A. [1982]. Subject access in t!Je online cata/ag. Washington, OC: Council on Library Resources. MANDEL, C. A [1985], Enriching the library catalog record or subject access. Library Resources and Teclmicat SeNices, 29(1), 5-15.

MANDEL, C. A [1987]. Multiple thesauri in online library bibliographic systems: a report prepared for Library of Congress Processing Se/Vices. Washington, DC.: Library of Congress. MARCELLA, R.; NEWTON, R. [1994], A new manual of c/assification. Alders hot: Gower. MARCHIONINI, G. [1989], lnformation seeking strategies of novices using a full-text electronic encyclopedia. Journal of the American Society for lnformation Science, 40(1), 54-66. MARCHIONINI, G. [1992]. Interfaces for end-user information seeking. Journal of the American Society for lnformation Science, 43(2), 156-163. MARCHIONINI, G. et al. [1993], lnformation seeking in full-text end-user oriented search systems: the roles of domain and search expertise. Library and lnformation Science Research, 15(1), 35-69. MARKEY, K. [1983], Online catalog use: results of suNeys and focus group inteNiews in severa/libraries. Dublin, OH: OCLC. MARKEY, K. [1984]. Subject searching in tibrary cata/ogs: befare and after the introduction of online catalogs. Dublin, OH: OCLC. MARKEY, K [1986]. DDC Project. Dublin, OH: OCLC. MARKEY, K. [1987]. Searching and browsing the Dewey Decimal Classifica tion in an online catalog. Cata/oging and C/assification Quarterly, 7(3), 37-68. MARKEY, K [1988], lntegrating the machine-readable LCSH into online cata logs. lnformation Technology and Libraries, 7(3), 299-312. MARKEY, K. [1989], Subject searching strategies for online catalogues through the Dewey Decimal Classification. En: Hildreth, C. R., ed. The online catalag: deve/opments and directions. London: Library Associa tion, 61-83. MARKEY, K.; DEMEYER, A N. [1986]. Dewey Decimal Classification online project: evaluation of a library schedule and index integrated into the subject searching capabilities of an online cata/ag. Dublin, OH: OCLC. MARKLEY, A E. [1950]. The University of California subject catalog inquiry: a study o the subject catalog based on interviews with users. Journal of Cataloging and Classification, 6, 88-95. MASSICOTTE, M. [1988]. lmproved browsable displays for online subject access. lnformation Tec/mology and Libraries, 7(4), 373-380. MATTHEWS, J.R. [1987]. Suggested guidelines or screen layouts and design of online catalogs. Library Trends, 35(4), 555-570.

MATIHEWS, J.R.; LAWRENCE, G.S. [1984], Further analysis ofthe CLR onli ne catalog project. lnformation Technology and Libraries, 3(4), 354-376 MATIHEWS, J R.; LAWRENCE, G.S.; FERGUSON, D.K. [1983], Using online catalogs: a nationwide swvey. A report of a study sponsored by the Council on Library Resources. New York: Neai-Schuman. MCALEESE, R.; DUNCAN, E. [1987], The graphical representation o 'terrain' and 'street' knowledge in an interface to a database system. Online lnformation 87: proceedings of the 11th lnternational Online lnformation Meeting (London, 1987). Oxford: Learned lnforrnation, 443-456. MCGARRY, D.; SVENONIUS, E. [1991], More on improved browsable dis plays lar online subject access. lnformation Technology and Libraries, 10(3), 185-191 MICCO, M. [1991], The next generation o online public access catalogs: a new look at subject access using hypermedia. En: Tyckoson, D. A., ed. Enhancing access to information: designing catalogs of the 21st centwy. New York: Haworth Press, 103-132. MISCHO, W. H.; COLE, T. W. [1992], The lllinois extended OPAC: library information workstation design and development. En: Ra, M., ed. Advances in online pub/ic access catalogs, 1. Westport, CT: Meckler, 38-57. MISCHO, W. H.; LEE, J [1987], End-user searching o bibliographic databases. Annual Review of lnformation Science and Technology, 22, 227-263. MITEV, N. N. [1986], Users and ease of use: online catalogues' raison d'tre. Program, 20(2), 111-119. MITEV, N. N. 1 989], Ease of interaction and retrieval in online catalogues: contributions of human-cornputer interaction research. En: Hildreth, C. R., ed. The online catalog: developments and directions. London: Library Association, 142-176. MITEV, N. N.; HILDRETH, C. R. [1989], Les catalogues interactifs en Gran de-Bretagne et aux Etats-Unis: systmes et interfaces. Bulletin des Bibliotheques de France, 34(1), 22-47. MITEV, N. N.; VENNER, G. M.; WALKER, S. [1985], Oesigning an online public access catalogue: Okapi, a catalogue on a local area networlc London: British Library. MITEV, N. N.; WALKER, S. [1985], lnformation retrieval aids in an online public access catalogue: automatic intelligent search sequencing. lnformatics 8: advances in intel/igent retrieval, proceedings of an Aslib!BCS joint conference (Oxford, 16-17 april1985). London: Aslib, 215-225.

MORAN, T. P. [1981], The command language grammar: a representation for the user interface of interactive computer systems. lnternational Journal of Man-Machine Studies, 15(1), 3-50. MORSE, P. M. [1970], Search theory and browsing. Library Quarterly, 40(4) 391-408. , MOYA, F. de [1994], "Biblioteca virtual" y redes: situacin actual de las nor mas. Informa!ion World en Espaol, 25, 1-3. MOYA, F. de [1995], Los sistemas integrados de gestin bibliotecaria: estructuras de datos y recuperacin de informacin. Madrid: ANABAD. MOYA, F. de; MOSCOSO, P. [1994], La primera versin del OPAC de la Biblioteca Nacional de Madrid. Boletn de la Anabad, 44(3), 171-191. NELSON, M. J. [1988], Correlation of term usage and term indexing recuen cies. lnformation Processing and Management, 24(5), 541-547. NIELSEN, B. [1986], What they say the do and what they do: assessing onli ne catalog use instruction through transaction monitoring. lnformation Technology and Libraries, 5(1), 28-34. NIELSEN, B.; BAKER, B. K. [1987], Educating the online catalog user: a model evaluation study. Library Trends, 35(4), 571-585. NOERR, P. L.; BIVINS-NOERR, K. T. [1985], Browse and navigate: an advance in database access methods. lnformation Processing and Management, 21(3), 205-213. NOREAULT, T.; KOLL, M. B.; MCGILL, M. [1977], Automatic ranked output from Boolean searches in SIRE. Journal of the American Society for lnformation Science, 28(6), 333-339. NORTON, T. [1984], Secondary publications have future in libraries. Aslib Proceedings, 36(5), 317-323. O'BRIEN, A. [1990], Relevance asan aid to evaluation in OPACs. Journal of lnformation Science, 16(4), 265-271. O'BRIEN, A. [1994], Online catalogs: enhancements and developments. Annual Review of lnformation Science and Teclmology, 29, 219-242. O'CONNOR, B. [1988], Fostering creativity: enhancing the browsing environ ment. lnternational Journal of lnformation Management, 8(3), 203-21 O. ODDY, R. N. [1975], Reference retrieval based on user induced dynamic clustering. PhD thesis, University of Newcastle upon Tyne (U.K.). ODDY, R. N. [1977], lnformation retrieval through man-machine dialogue. Jaumal of Documentation, 33(1), 1-14. ODDY, R. N.; BALAKRISHNAN, B. [1991], PThomas an adpative inormation retrieval system on the connection machine. lnformation Processing and Management, 27(4), 317-335.

O'NEILL, E. T.; ALURI, R. [1981], Library of Congress subject heading pat terns in OCLC monographic records. Library Resources and Technica/ Services, 25(1), 63-80. O'NEILL, E. T.; DILLON, M.; VIZINE-GOETZ, D. [1987], Class dispersion bet ween the Library of Congress Classification and the Dewey Decimal Classification. Journal of the American Society for lnformation Science, 38(3), 197-205. PAICE, C. [1986], Expert systems for information retrieval? Aslib Proceedings, 38(10), 343-353. PALAY, A. J.; FOX, M. S. [1981], Browsing through databases. En: Oddy, R. N. et al, eds. lnformation retrieval research. London: Butterworth, 310-324. PALMER, J. W. [1986], Subject authority control and syndetic structure: myth and realities. Cataloging and Classification Quarterly, 7(2), 71-95. PERSSON, O. [1994], The intellectual base and research fronts of JASIS 1986-1990. Journa/ of the American Society for Informa!ion Science, 45(1), 31-38. PETERS, T. A. [1989], When smart people fail: an analysis of the transaction lag of an online public access catalog. Journal of Academic Librarianship, 15(5), 267-273. PETERS, T. A. [1991], The online catalog: a critica/ examination of public use. Jefferson, NC: McFarland. PITERNICK, A. B. [1984], Searching vocabularies: a developing category of online search tools. Online Review, 8(5), 441-449. POLLARD, R. [1993], A hypertext-based thesaurus as a subject browsing aid for bibliographic databases. /nformation Processing and Management, 29(3), 345-357. POLUTI, S A.; ELUS, G. P; SMITH, M. P. [1994], HIBROWSE for biblio graphic databases. Journa/ of lnformation Science, 20(6), 413-426. PORTER, M.; GALPIN, V. [1988], Relevance feedback in a public access catalogue for a research library: Muscat at the Scott Polar Research lnstitute. Program, 22(1), 1-20. PRABHA, C. G. [1990], Managing large retrieval. Annua/ Review of OCLC Research, july 1989-june 1990, 24-26. RADECKI, T. A. [1982], A probabilistic approach to information retrieval in systems with Boolean search request formulations. Journal of the American Society for lnformation Science, 33(6), 365-370. RADECKI, T. A. [1988], Trends in research on IR: the potential for improve ments in conventional Boolean retrieval systems. tnformation Processing and Management, 24(3), 219-227.

RAO, R. et al. [1995], Rich interaction in the digital library. Communications of the ACM, 38(4), 29-39. RICE, J. [1987], End-user management of information from online search ser vices and online public access catalogs. Microcomputers for lnformation Management, 4(4), 303-317. RICE, R. E.; BORGMAN, C. L. [1983], The use of computer-monitored data in information science and communication research. Journal of the American Society for lnformation Science, 34(4), 247-256. RIGBY, M. [1974], Computers and the UOC: a decade of progress 19631973. The Hague: lnternational Federation for Documentation. RIGBY, M. [1981], Automation and the UDC, 1948-1980. The Hague: lnter national Federation for Documentation. ROBERTSON, S. E.; HANCOCK-BEAUUEU, M. M. [1992], On the evalua tion of IR systems. lnformation Processing and Management, 28(4), 457-466. ROBERTSON, S. E. et al. [1986], Weigthing, ranking and relevance feedback in a front-end system. Journal of lnformation Science, 12(2), 71-75. ROCCHIO, J. J. [1971], Relevance feedback in information retrieval. En: Sal ton, G., ed. The Smart retrieval system: experiments in automatic document processing. Englewoods Cliffs, NJ: Prentice-Hall, 313-323. ROGER, D.; KOLMAYER, E. [1994], Analyse de la bibliographie sur les OPAC et perspectivas. En: Hassoun, M. y Roger, D., coords. Les catalogues en ligne: enqui!te la Mediathque de la Cite des Sciences et de /'Industrie. Villeurbanne: Enssib, 153-180. ROSENBERG, J. B.; BORGMAN, C. L. [1991], A report on the loading of MARC format bibliographic records into Hypercard. lnformation Technology and Libraries, 10(4), 292-297. ROSENBERG, J. B.; BORGMAN, C. L. [1992], Extending the Dewey Decimal Classification via keyword clustering: the Science Library Catalog Pro ject. ASIS'92: proceedings ofthe 55th AS/S annual meeting (Pittsburgh, october 26-29 1992). Medford, NJ: Learned lnformation, 171-184. ROWLEY, J. E. [1994], The controlled versus natural indexing languages debate revisited: a perspectiva on inforrnation retrieval practice and research. Journal of lnformation Science, 20(2), 108-119. SAINZ, G. l. et al. [1995], Sistema neuronal difuso para la gestin de docu mentos estructurados. Procesamiento del Lenguaje Natural, 17, 57-70. SALTON, G. [1989], Automatic text processing: the transformation, analysis and retrieva/ ofinformation by computar. Readlng, MA: Addison-Wesley.

SALTON, G.; BUCKLEY, C. [1990], lmproving retrieval performance by rele vance eedback. Jaumal of the American Society for Informalan Science, 41(4), 288-297. SALTON, G.; MCGILL, M. [1983], lntroduction to modern information refreval. New York: McGraw-Hill. SALTON, G.; WONG, A. [1978], Generation and search of clustered files. ACM Transactions on Database Systems, 3(4), 321-346. SARACEVIC, T.; KANTOR, P. [1988], A study o information seeking and retrieving, 111. Searchers, searches, and overlap. Journa/ of the American Society for lnformation Science, 39(3), 197-216. SCHAMBER, L.; EISENBERG, M. B.; NILAN, M. S. [1990], A re-examination of relevance: toward a dynamic, situational definition. Informalan Processing and Management, 26(6), 755-776. SHANNON, C. E. [1948], A mathematical theory of communication. Be// System Technica/ Journal, 27, 379-423, 623-656. SHAW, D. [1994], Libraries of the future: glimpses of a networked, distribu ted, collaborative, hyper, virtual world. Ubri, 44(3), 206-223. SHENOUDA, W. [1990], Online bibliographic searching: how end-users modify their search strategies. AS/S'90: proceedings of the 53rd AS/S annual meeting (Toronto, november 4-8 1990). Medford, NJ: Learned lnformation, 117-128. SHNEIDERMAN, B. [1986], Designing the userinterface: strategies foreffective human-computer interaction. Reading, MA: Addison-Wesley. SMALL, H.; SWEENEY, E. [1985], Clustering the Science Citation lndex using cocitation. Scientometrics, 7(3), 391-409. SMITH, E. H. [1991], Enhancing subject accesibility to the online catalog. Ubrary Resources and Technical Services, 35(1), 109-113. SNEATH, P. H. A; SOKAL, R. R. [1973], Numerical taxonomy. San Francis co: Freeman. SOLOMON, P. [1993], Children's inormation retrieval behavior: a case analy sis of an OPAC. Journal of the American Society for Informalan Science, 44(5), 245-264. SPI NK, A [1996], Multiple search sessions model o end-user behavior: an exploratory study. Journal of the American Society for lnformation Science, 47(8), 603-609. STEINBERG, D.; METZ, P. [1984], User response to and knowledge about and online catalag. College and Research Librarles, 45(1), 66-70.

1
1

STUDWELL, W. E. [1990], Cataloging forum: subject access theory n 11: bilevel headings: a proposal to modify the architecture of LC Subject Headings. Technica/ites, 10(1), 7-8. SVENONIUS, E. [1981], Directions for research in indexing, classification and cataloging. Ubrary Resources and Technical Services, 25(1), 88-103. SVENONIUS, E. [1983], Use of classification in online retrieval. Ubrary Resources and Technical Services, 27(1), 76-80. SWANSON, D. R. [1964], Dialogues with a catalogue. Ubrary Quarterly, 34(1), 113-125. SWANSON, D. R. [1979], Libraries and the growth o knowledge. Ubrary Quarter/y, 49(1), 3-25. TAGLIACOZZO, R.; SEMMEL, D.; KOCHEN, M. [1971], Written representa lan of tapies and the production of query terms. Journal of the American Society for lnformation Scence, 22(5), 337-347. TAGUE, J. M. [1989], Negotiation at the OPAC interface. En: Hildreth, C. R., ed. The online catalog: developments and directons. London: Library Association, 47-60. TAYLOR, A. G. [1992], Enhancing suject access in online systems: the year's work in subject analysis, 1991. Ubrary Resources and Technica/ Services, 36(3), 316-332. TAYLOR, R. S. [1962], The process of asking questions. American Documentation, 13(4), 391-397. TAYLOR, R. S. [1968], Question negotiation and information seeking in libra res. College and Research Ubraries, 29(3), 178-194. TOLLE, J. E. [1983], Curren! utilization of online cata/ogs: transaction lag analysis. Dublin, OH: OCLC. TONTA, Y. [1991], A study of indexing consistency between Library of Con gress and British Library catalogers. Ubrary Resources and Technical Services, 35(2), 177-185. TURTLE, H. R.; CROFT, W. B. [1991], Evaluation of an inerence network based retrieval model. ACM Transactions on lnformation Systems, !X3), 187-222. URQUHART, D. J. [1976], National lending/reference libraries or libraries of first resort. BLL Review, 4( 1), 7-1O. VAN HERWIJNEN, E. [1994], Practica/ SGML. 2nd ed. Bastan: Kluwer. VAN RIJSBERGEN, C. J. [1979], lnformation retrieval. 2nd ed. London: But terworth.

VENEZIANO, V. [1989], The "new" NOTIS/LUIS indexes. /nformation Tec/1no/ogy and Libraries, 8(1), 5-19. VICKERY, A.; BROOKS, H. M.; VICKERY, B. C. [1986], An expert system for referral: the PLEXUS project. En: Davies, R., ed. lntel/igent informa/ion systems: progress and prospects. Chichester: Ellis Horwood, 154-183. VOORHEES, E. M. [1986], lmplementing agglomerative hierarchic clustering algorithms for use in document retrieval. Informa/ion Processing and Management, 22(6), 465-476. WADE, S. J.; WILLETI, P. [1988], INSTRUCT: a teaching package for expe rimental methods in information retrieval. Part 111. Browsing, clustering and query expansion. Program, 22(1), 44-61. WADE, S. J.; WILLETI, P.; BAWDEN, D. [1989], SIBRIS: the Sandwich inte ractive browsing and ranking information system. Journal of Informa/ion Science, 15(4/5), 249-260. WAJENBERG, A. S. [1983], MARC coding of DDC for subject retrieval. Informa/ion Technology and Libraries, 2(3), 246-251. WALKER, S. [1987], OKAPI: evaluating and enhancing an experimental onli ne catalog. Library Trends, 35(4), 631-645. WALKER, S. [1989], The Okapi online catalogue research projects. En: Hil dreth, C. R., ed. The online catalog: developments and directions. Lon don: Library Association, 84-106. WALKER, S. [1991], Views on classification as a search tool on a computer. Computer in Libraries lnternational 91: proceedings olhe Fifth Annual Conference on Computers in Libraries (London, february 4-6, 1991). Westport, CT: Meckler, 130-139. WALKER, S.; JONES, R. M. [1987], lmproving subject retrieval in online catalogues: stemming, automatic spelling correction and cross-reference tablas. London: British Library. WALTON, C.; WILLIAMSON, S.; WHITE, H. D. [1986], Resistance to online catalogs: a comparative study alBryn Mawr and Swarthmore colleges. Library Resources and Technical Services, 30(3), 388-401. WERSIG, G. [1979], The problematic situation as a basic concept of infor mation science in the framework of the social sciences. En: New trends in informatics and its terminology. Mosc: VINITI, 48-57. WHITE, H. D.; GRIFFITH, B. C. [1981], Author cocitation: a literature measu re of intellectual structure. Journal of the American Society for lnformation Science, 32(3), 163-172. WHITILE, E. D. [1977], On browsing. BLL Review, 5(1), 32-33.

WIBERLEY, S. E.; DAUGHERTY, R. A. [1988], User's persistence in scanning lists of references. College and Research Libraries, 49(2), 149-156. WIBERLEY, S. E.; DAUGHERTY, R. A.; DANOWSKI, J. A. [1990], User per sistence in scanning posting of a computer-driven information systems: LCS. Library and Informa/ion Science Research, 12(4), 341-353. WILLETI, P. [1988], Recen!trends in hierarchic document clustering: a criti ca! review. Informa/ion Processing and Management, 24(5), 577-597. WILLIAMSON, N. J. [1982], ls there a catalog in your future? access to infor mation in the year 2006. Library Resources and Technical Services, 26(2), 122-135. WILSON, P. [1983], The catalogas access mechanism: background and con cepts. Library Resources and Technical Services, 27(1), 4-17. WILSON, T. D. [1981], On user studies and information needs. Journal of Documentation, 37(1), 3-15. WONG, S. K. M.; CAl, Y. J.; YAO, Y. Y. [1993], Computation of term asso ciations by a neural network. Proceedings ofthe 16th lnternation SIGIR Conference on Research and Development in Informa/ion Retrieval. New York: ACM, 107-115. WONG, S. K. M.; YAO, Y. Y. [1991], A probabilistic inference model for infor mation retrieval. Informa/ion Systems, 16(4), 301-321. WOOD, A. [1995], Z39.50 client reviews. DSTC, http:l/www.dstc.edu.au/ ROUlreports/zclients. html. YEE, M. M. [1991], System design and cataloging mee!the user: user inter faces lo online public access catalogs. Journal of !he American Society for Informa/ion Science, 42(2), 78-98. YU, C. T. el al. [1985], Adaptive record clustering. ACM Transactions on Database Systems, 10(2), 180-204. ZEEMAN, J. C. [1995], lnterlending in the emerging networked environment: implications for the ILL protocol standard. UDT Series on Data Communication Technologies and Standards for Libraries, http:l/www.nlc bnc.ca/iflaNI/51reportslrep8/rep8.html.

NDICE

Presentacin........................................................................................... Prlogo................................................................................................... Introduccin............................................................................................ 11. Los Opac: Generaciones, problemas y soluciones............................ 111. El acceso por materias...:..... ............................................................ IV. La bsqueda de informacin............................................................. V. Las tcnicas de clustering y los esquemas de clasificacin.............. VIl. Apndice........................................................................................

7 9

13
20 45 73

101 158

VI. La prxima generacin de sistemas en linea de acceso pblico ..... 135 VIII. Referencias bibliogrficas............................................................... 176