Está en la página 1de 13

Lancaster, Frederick W. El control del vocabulario en la recuperación de información.

--
Valencia : Universitat de Valencia, 1995. -- Cap. I, II, III.

Capítulo I
¿Por qué el control del vocabulario?

En los sistemas de recuperación de la información suele ser esencial el control del


vocabulario utilizado para representar las materias. El control del vocabulario en la
recuperación de información, como el propio título indica, trata de los distintos aspectos del
control del vocabulario en el contexto de la recuperación de información. Se centra
especialmente en el tesauro∗ ya que éste es el sistema de control del vocabulario más utilizado
en la recuperación de la información durante los últimos 20 años. Sin embargo, también se han
considerado otros aspectos, como el funcionamiento de los sistemas de recuperación de la
información sin control del vocabulario.
En la figura 1 se muestran los principales elementos de un sistema de recuperación de la
información. La entrada (input) consiste en los documentos (en su sentido más amplio, impresos
o de cualquier otro tipo) adquiridos por el centro de documentación que maneja el sistema. Esto
implica la existencia de criterios y políticas de selección, que a su vez implican un conocimiento
detallado y exacto de las necesidades de información de la comunidad a la que se dirige el
sistema. Una vez adquiridos los documentos, éstos han de ser «organizados y controlados» de
modo que puedan ser identificados y localizados en respuesta a los diferentes tipos de demandas
de los usuarios. Las actividades de organización y control incluyen la clasificación, la
catalogación, la indización y el resumen. Dos elementos importantes son la descripción física
del documento (catalogación descriptiva) y la elección de los puntos de acceso (autores, títulos)
para su inclusión en catálogos y bibliografías.
Como se observa en la figura 1 el proceso de indización implica dos fases intelectuales
bastante diferentes: el «análisis conceptual» de un documento y la «traducción» de aquél a un
vocabulario determinado. Para efectuar un análisis conceptual adecuado, el indizador necesita
no sólo la comprensión de la materia del documento, sino también un buen conocimiento de las
necesidades de los usuarios del sistema.
La segunda fase del proceso de indización es la traducción del análisis conceptual a un
vocabulario determinado. En la mayoría de los sistemas se cuenta con un «vocabulario
controlado», es decir, un conjunto limitado de términos que deben utilizarse para representar las
materias de los documentos. Este vocabulario puede ser una lista de encabezamientos de
materias, un esquema de clasificación, un tesauro o simplemente una lista «autorizada» de
frases o palabras clave.
Tras la indización, los documentos son almacenados de algún modo (base de datos de
documentos) y los registros de indización se organizan en una segunda base de datos de forma
que puedan ser buscados fácilmente en respuesta a distintos tipos de peticiones. La base de
datos de los registros de indización, o «representaciones de los documentos», puede ser
simplemente un fichero o un índice impreso. En la actualidad esta base de datos, normalmente,
será un fichero automatizado sobre cinta magnética o disco, que puede considerarse como el
«índice» del documento almacenado. El índice de la figura 1 consiste en una descripción
bibliográfica de cada documento de la colección junto a varios puntos de acceso, para que esta
representación sea recuperable, no sólo por los términos que describen las materias sino también
por otras características como autor y título.
En el diagrama se considera una base de datos bibliográfica (de documentos). Las fases no
cambiarían significativamente si se tratara de una base de datos de otro tipo (p. ej., numérica).
Los contenidos también han de indizarse para hacerlos accesibles, pero el «almacenamiento de
documentos» será sustituido por listas automatizadas de datos (físicos, químicos, numéricos o
estadísticos).


Aunque thesaurus se utiliza universalmente y conceptualmente es más preciso que tesauro, empleamos este último término debido
a su uso general, tras la publicación de la norma UNE 50-106-90, en los textos en castellano sobre el tema (N. del T.)
Las fases de la salida del sistema (output) son muy similares a las que se dan en la entrada.
Los usuarios realizan diferentes peticiones al centro de documentación y los documentalistas
preparan estrategias de búsqueda para esas peticiones. Resulta oportuno considerar también en
la preparación de las estrategias de búsqueda las fases de análisis conceptual y de traducción. La
primera fase implica un análisis de la petición para determinar lo que realmente busca el usuario
y la segunda consiste en la traducción del análisis conceptual al vocabulario del sistema. El
análisis conceptual de la petición, traducido al lenguaje del sistema, es la estrategia de
búsqueda, que puede considerarse como una representación de la petición, del mismo modo que
el registro de indización puede contemplarse como una representación del documento. La única
diferencia es que en aquélla normalmente existe «lógica» (es decir, se especifican un cierto
número de relaciones lógicas entre los términos), mientras que en el registro de indización las
relaciones lógicas entre los términos estarán más implícitas que explícitas.

Una vez terminada la estrategia de búsqueda se «compara» de algún modo con las
representaciones de los documentos de la base de datos. Esto puede hacerse mediante un fichero
manual, índices impresos, microfilm, cinta magnética o disco. En la actualidad, la búsqueda
puede hacerse online, desde un terminal en una biblioteca, aunque la base de datos esté a cientos
o miles de kilómetros de distancia. Las representaciones de los documentos que se ajustan a la
estrategia de búsqueda, es decir, que satisfacen los requerimientos lógicos de la búsqueda, son
recuperadas de la base de datos y ofrecidas al usuario de forma impresa o por pantalla. El
proceso acaba cuando el usuario queda satisfecho con los resultados de la búsqueda. En algunos
casos esto puede consistir en el convencimiento de que no hay nada en la base de datos que se
ajuste a sus necesidades.
La figura 1 indica con claridad el papel central que juega el vocabulario en un sistema de
recuperación de la información. Los indizadores tienen que utilizar los términos de este
vocabulario para representar las materias de los documentos. En las estrategias de búsqueda se
utilizarán los mismos términos para la interrogación a la base de datos. Podemos hacernos una
idea de lo que podría ocurrir si el sistema funcionara sin control del vocabulario examinando la
lista de términos de la figura 2. Puede considerarse que todos ellos (y la lista no es completa)
tienen algo que ver con el proceso de «unión» (de materiales como los metales y los plásticos).
La lista contiene una amplia variedad de tipos de términos: algunos (como conexión, soldadura
fuerte, encolado) representan procesos de unión; otros (como planchas y hojas) representan
cosas que pueden ser unidas; otros representan tipos de uniones (aglomerados, soldadura); y
otros se refieren a sustancias (aleaciones, colas) o instrumentos (soldadores, varillas soldadoras),
propiedades de materiales o uniones (fragilidad, resistencia) o procesos que pueden afectar a las
uniones (corrosión, deterioro, etc.).

Estos términos pueden aparecer en un catálogo alfabético de materias o en un índice (p.ej.,


de una enciclopedia o un boletín de resúmenes), donde podrían estar entremezclados con
muchos otros términos relacionados con otras materias. En ese caso, la persona interesada en
información sobre unión, tendría varios problemas. En primer lugar, algunos de los términos de
la lista significan casi lo mismo; es decir, son sinónimos o cuasisinónimos. Un ejemplo es
«láminas» y «planchas»; a nivel muy técnico, «soldadura de arco cubierto» puede ser
considerado sinónimo de «soldadura de arco sumergido». Si estas variaciones terminológicas no
se hacen equivalentes en el contexto de un determinado campo temático, sería preferible
relacionar los sinónimos escogiendo uno de ellos y remitiendo a él desde los demás como en el
siguiente ejemplo:
Otro problema que se presenta es que algunos términos son ambiguos fuera de su contexto.
Así, «articulaciones» podría referirse al enlace entre dos piezas de una máquina o instrumento o
a las uniones anatómicas y «fatiga» podría referirse a cansancio o al fenómeno de disminución
de resistencia de los metales. Se debería reducir tal ambigüedad, por ejemplo, mediante un
calificador entre paréntesis:

articulaciones (anatómicas)

El mayor problema posiblemente sea que en una lista alfabética los términos con
significados cercanos aparecerán separados. Aunque sea improbable que alguien plantee una
búsqueda sobre cada aspecto del tema unión, sí es posible que alguien quiera recuperar toda la
información relativa a algún tipo de unión, como unión por adherencia. El orden alfabético va a
separar muchos términos relacionados con esa materia: adhesivos, aglomerantes, cementos,
colas, gomas, etc. Sería útil para el que busca información que todos los términos con
significados relacionados estuvieran unidos de algún modo, como en el siguiente ejemplo:

En el diagrama se puede observar que están representados dos tipos de relaciones. Uno es
la relación permanente entre una cosa y tipos de esa cosa (entre un género y sus especies):
fractura y rotura son siempre tipos de averías. El otro tipo de relación es más transitorio; por
ejemplo, el proceso de avería puede estar inducido por otros procesos como corrosión y fatiga e
influido por propiedades físicas como resistencia y tenacidad. A la relación genérica permanente
a veces se la conoce como relación paradigmática o relación a priori, mientras que a la relación
más transitoria (la avería puede estar ocasionada por la corrosión, pero no siempre se debe a ella
ni la corrosión conduce siempre a una avería) en ocasiones se la llama relación sintagmática o a
posteriori.
Los ejemplos vistos, basados en los términos de la figura 2, demuestran claramente los
objetivos del control del vocabulario en un sistema de recuperación de la información. Estos
objetivos pueden resumirse en:

1. Facilitar la representación consistente de las materias por parte de indizadores y usuarios


que recuperan, evitando la dispersión de los elementos relacionados. Esto se consigue con el
control (agrupación) de los sinónimos y cuasisinónimos y la distinción de los homógrafos.
2. Facilitar la realización de una búsqueda amplia sobre una materia enlazando los términos
con relaciones paradigmáticas o sintagmáticas.

La indización tiende a ser más consistente cuando el vocabulario utilizado está controlado.
Será más probable que los indizadores estén de acuerdo sobre los términos necesarios para
representar una determinada materia, si éstos son seleccionados de una lista previa que si
pueden utilizar cualquier término. Lo mismo ocurre en el proceso de búsqueda: será más fácil
identificar los términos apropiados a una necesidad de información si son seleccionados de una
lista determinada. Por lo tanto, el vocabulario controlado facilita la coincidencia entre el
lenguaje de los indizadores y el de los usuarios que hacen la búsqueda.
Un vocabulario controlado no necesita más que un limitado conjunto de términos que
puedan ser utilizados por el indizador y el usuario. Sin embargo, normalmente los términos
están sujetos a algún tipo de estructura para que aquellos que tienen significados cercanos
aparezcan juntos o relacionados de alguna forma. Ello ayudará, tanto al indizador como al
usuario que hace la búsqueda, a poder seleccionar los términos más adecuados para representar
una determinada materia. Y, aún más importante, ayudará al usuario a identificar todos los tér-
minos necesarios para realizar una búsqueda amplia sobre alguna materia.

Capítulo II
Sistemas precoordinados y postcoordinados

La clasificación está presente en todas las actividades de recuperación de la información.


La indización es, evidentemente, un proceso de clasificación. Cuando un indizador determina
que un documento trata del efecto de la televisión sobre los hábitos de lectura de los
preescolares y asigna al documento los términos PREESCOLARES, TELEVISIÓN y
HÁBITOS DE LECTURA, está asignando el documento a tres clases representadas por esos
términos; es decir, el indizador agrupa el documento junto a otros que previamente han sido
incluidos en una u otra de esas clases. Los términos utilizados por el indizador para representar
las materias pueden considerarse denominaciones que identifican a varias clases. Por eso
pueden llamarse identificadores de clase, aunque habitualmente se les llama términos de
indización o descriptores. A todo el conjunto de términos utilizados para describir las materias
contenidas en una base de datos a veces se le conoce como lenguaje de indización. Un
vocabulario controlado es un tipo de lenguaje de indización en el que la terminología está con-
trolada.
La clasificación también se manifiesta en el modo en que es interrogada una base de datos.
La estrategia de búsqueda supone decidir qué clases, representadas en una base de datos, pueden
contener elementos relevantes para una determinada necesidad de información e interrogar al
sistema de forma que los elementos de esas clases sean recuperados. Esto implica la capacidad
de combinar clases de forma que los únicos elementos recuperados sean aquellos que satisfagan
una determinada condición lógica. Si se quiere información sobre los hábitos de lectura de los
preescolares sólo deberían recuperarse los elementos que aparezcan tanto en la clase
PREESCOLARES como en la clase HÁBITOS DE LECTURA.
Para una recuperación efectiva de la información es esencial que las clases puedan
combinarse entre sí con total flexibilidad. Consideremos, por ejemplo, un documento indizado
con los términos: LAGOS, CONTAMINACIÓN DEL AGUA, COMPUESTOS DE
MERCURIO Y PECES. Probablemente este documento tratará del efecto sobre los peces de la
contaminación de los lagos causada por compuestos de mercurio. No sólo se debería recuperar
este documento en respuesta a una búsqueda sobre ese tema concreto, representado por la
interrelación de las cuatro clases, sino también en respuesta a una búsqueda con cualquier nivel
de relación entre las cuatro clases (p.ej., PECES y COMPUESTOS DE MERCURIO;
CONTAMINACIÓN DEL AGUA y LAGOS; COMPUESTOS DE MERCURIO y
CONTAMINACIÓN DEL AGUA y PECES), ya que cualquiera de esas relaciones puede
considerarse relevante. Ésta es la diferencia fundamental entre los sistemas de recuperación
precoordinados y los post-coordinados (Soergel, 1974, los llama «precombinados» y
«postcombinados»).
La figura 3 muestra la distinción entre ellos. Un documento ha sido indizado con cuatro
términos (asignado a cuatro clases). En un sistema postcoordinado se conserva la
multidimensionalidad de la relación entre las cuatro clases: no es preciso un orden de clases ya
que todas tienen el mismo peso y permite recuperar el documento independientemente de cuál
sea la combinación de los cuatro términos que se plantee en la búsqueda. Esto es cierto para
todos los sistemas automatizados (offline y online), para sistemas de recuperación con
microfilm y varios predecesores de los sistemas modernos (tarjetas peek-a-boo, tarjetas
perforadas, tarjetas de perforación marginal). Sin embargo, un índice de materias impreso o en
forma de fichero convencional pierde la multidimensionalidad. Es posible la confección de una
entrada en la que estén presentes todos los términos de indización, pero tendrán que estar
ordenados en una secuencia lineal, y sólo podrá accederse al documento a través del primer
término de la cadena. Por ejemplo, en la figura 3 la entrada del índice PECES, LAGOS,
COMPUESTOS DE MERCURIO, CONTAMINACIÓN DEL AGUA permite la recuperación
sólo si el usuario busca en el índice el término PECES, ya que los otros términos son
subdivisiones o modificadores de él. Este tipo de índice es el que llamamos precoordinado: las
clases se coordinan (combinan) en una cierta secuencia durante la construcción del índice; el
usuario no puede combinar libremente las clases y por tanto, no puede recuperar documentos a
partir de aspectos que no estén explícitos en el índice.
En un índice precoordinado pueden multiplicarse las entradas y existen procedimientos
para conseguir, de forma sistemática, el número de entradas necesarias (o, en algunos casos, una
única entrada con referencias cruzadas) incluso con ordenador. Algunos de los métodos son la
rotación sistemática, empleada en Excerpta Medica y Applied Mechanics Reviews (Juhasz et al.,
1980): el índice SLIC (Sharp, 196); la indización encadenada (Wilson, 1971); la ordenación
preferencial, utilizada, por ejemplo, en el British Technology Índex (Coates, 1960); y PRECIS
(Foskett, 1982). La multiplicación de entradas en un índice precoordinado, puede proporcionar
múltiples puntos de acceso, pero, por razones de espacio y de coste, suele haber un límite en el
número de puntos de acceso posibles, cosa que no ocurre en un índice postcoordinado. Además,
independientemente del número de puntos de acceso, un índice precoordinado no le da al
usuario la posibilidad que le ofrece el postcoordinado de manipular las clases libremente. Por
esa razón también se les llama manipulable (postcoordinado) y no manipulable (precoordinado)
(Bernier, 1956).
En el ejemplo de la figura 3 el índice precoordinado considerado es un índice alfabético de
materias. Limitaciones similares nos encontramos cuando se trata de un esquema de
clasificación. Por ejemplo, la entrada del índice podría ser AbEfGccKp, donde Ab representaría
a «peces», Ef a «lagos», etc.
El control del vocabulario es aplicable tanto a los sistemas precordinados como a los
postcoordinados. Sin embargo, este libro se ocupa fundamentalmente del control del
vocabulario en los sistemas postcoordinados.
Capítulo III
Estructura y presentación del vocabulario

En general, un vocabulario controlado debería tener dos partes complementarias: una


organización sistemática de los términos y una lista alfabética de esos términos. Esas partes
pueden estar separadas o completamente integradas.

Clasificaciones abiertas

Una forma posible de presentación sistemática de un vocabulario es como «estructura


arbórea», de manera semejante a un árbol genealógico familiar. En el ejemplo de la figura 4 se
puede observar que la disposición refleja relaciones de género/especies: «cámaras de filmación»
es una de las cuatro especies de «cámaras»; «cámaras cinematográficas» es una de las dos
especies de «cámaras de filmación»; etc. Uno de los términos, «cámaras cinematográficas
sumergibles», tiene dos genéricos, cámaras sumergibles y cámaras cinematográficas.
Si un vocabulario se dispusiera de este modo, cada árbol (jerarquía) ocuparía una página
separada. El resultado impreso se asemejaría a un atlas, con un «mapa» de la terminología de
una materia en cada página; el mapa de la figura 4 se identifica con el número E4 17. Se podría
incluir en los mapas algún tipo de referencias cruzadas que asociaran los términos relacionados
entre sí (de la misma manera que en un mapa de carreteras se envía de una parte a otra), aunque
en la figura no aparecen dichas referencias. Por ejemplo, el mapa «cámaras» podría asociarse a
otro mapa, «fotografía»; «cámaras sumergibles» a «exploración submarina»; etc.
Aunque se incluyeran tales referencias en los mapas, también sería necesario un índice
alfabético. La figura 5 muestra entradas de un índice de este tipo. En él no sólo se indica la
referencia al mapa en la que está incluido un determinado término; también proporciona
relaciones cruzadas a los mapas relacionados, de forma que fotografía está unido a cámaras,
cámaras sumergibles a buceo, etc. Estas relaciones se indican mediante la abreviatura TR, que
significa «término relacionado» (en inglés, RT, related term).
Las entradas del índice de la figura también muestran el control de los sinónimos.
«Cámaras SLR» y «cámaras reflex de un objetivo» son considerados como sinónimos; el
usuario que entre en la lista por el primer término será enviado («use») al segundo. Esta relación
es recíproca: bajo «cámaras reflex de un objetivo» se indica, mediante «UP» (en inglés, «UF»,
use for), que se utiliza este término en lugar de «cámaras SLR». Por último, los términos con
significados poco claros van acompañados de notas de aplicación, una breve definición de cómo
es utilizado el término en el contexto del vocabulario del sistema. Se indican con NA (en inglés,
SN, scope notes).
El vocabulario de las figuras 4 y 5 satisface todos los objetivos de un vocabulario
controlado: los sinónimos están controlados, y los términos relacionados aparecen juntos para
facilitar al indizador y al recuperador la selección de los términos más apropiados para
representar una determinada materia y ayudar al usuario a identificar todos los términos
necesarios para realizar una búsqueda exhaustiva sobre un tema. La estructura arbórea del
lenguaje de indización contempla la relación paradigmática, mientras que los términos rela-
cionados establecen la relación sintagmática. Además, el vocabulario tiene una disposición
sistemática y una disposición alfabética.
El vocabulario mostrado puede considerarse como un tipo de esquema de clasificación con
un índice alfabético complementario. Este es un modo totalmente aceptable de control del
vocabulario, con dos excepciones. La primera se da en el caso de jerarquías muy extensas, en
las que pueden haber problemas de estructuración (p. ej., cámaras podría ser un elemento de una
jerarquía de «equipo» mucho más larga). La segunda es, que si el vocabulario es extenso, esta
forma de disposición puede ser antieconómica por la gran cantidad de espacio ocupado.
Un tipo de esquema de clasificación más usual (parecido a los esquemas de clasificación
bibliográfica utilizados en las bibliotecas) es el que se muestra en la figura 6. En la figura 6A
aparece la estructura arbórea de la figura 4 en forma «sistemática». Esta es más completa que la
arbórea, pero presenta desventajas. Aunque se utiliza el sangrado para representar los niveles
jerárquicos, éstos no se muestran de forma tan clara como en la estructura arbórea. No es tan
evidente que «cámaras cinematográficas sumergibles» está subordinado tanto a «cámaras
cinematográficas» como a «cámaras sumergibles»; de hecho, el término aparece en dos lugares,
lo que resulta confuso y ambiguo ya que en un lugar aparece la notación 305 y en el otro la 317.
La figura 6A también ilustra un aspecto importante que parece confundir a algunos
estudiantes de biblioteconomía. El sistema de numeración («notación») que aparece junto a los
términos sólo sirve para mantener la secuencia de la estructura sistemática impresa y para actuar
como una adecuada «nota taquigráfica» para representar los términos (especialmente en los
lomos de los libros ordenados en las estanterías). El ejemplo podría ser una clasificación de la
terminología sobre cámaras si la notación fuera eliminada, como es el caso de la figura 4, sin
notación, que muestra una verdadera clasificación de esta terminología, presentada de una forma
diferente.
La presentación sistemática de la figura 6A también necesita un índice alfabético, que
se muestra en la figura 6B. A diferencia de las figuras 4 y 5, las figuras 6A y 6B no son
completamente complementarias. Existe mucha redundancia porque las referencias TR e incluso
las notas de aplicación aparecen duplicadas en las dos partes. Sin embargo, el vocabulario
satisface los requisitos de un vocabulario controlado, como se explica en el primer capítulo.

Clasificaciones cerradas

Una tercera posibilidad de presentación es la mostrada en la figura 7. En este caso, se han


reordenado los términos de la figura 4 en orden alfabético y se han entremezclado con los de
otras jerarquías. Lo más significativo de esta ordenación es que aquí también se reproduce la
jerarquía de la figura 4. En este caso, el género de un término aparece como «término genérico»
(TG) (en inglés, BT, broader term) y cada especie del término como «término específico» (TE)
(en inglés, NT, narrow term). Por ejemplo, «cámaras réflex» es una especie de «cámaras
fotográficas» (es decir, «cámaras fotográficas» es su genérico TG) y «cámaras réflex» tiene dos
específicos (TE). Estas relaciones son reciprocas: «cámaras» aparece cómo TG de «cámaras
sumergibles» y «cámaras sumergibles» como TE de «cámaras».
Aunque la ordenación es alfabéticamente abierta, las relaciones TG/TE constituyen una
clasificación cerrada. No habría sido posible llegar a esta ordenación sin haber desarrollado
previamente la jerarquía mostrada en la figura 4. Esta figura puede ser obtenida de la figura 7 y
a la inversa. Además es posible crear un programa de ordenador para obtener la estructura
TG/TE de la figura 7 a partir de la estructura arbórea de la figura 4 y viceversa.
Se puede observar que la figura 7 también incorpora el control de sinónimos (reenvío use), la
estructura TR y las notas de aplicación que aparecen en las presentaciones anteriores. Esto
también satisface los requisitos de un vocabulario controlado. Además, como la presentación es
alfabética, con la jerarquía cerrada marcada por una estructura de referencias cruzadas, se
satisfacen los requisitos en una disposición única; es decir, se combinan las disposiciones
sistemática y alfabética. Desde luego, no puede contemplarse la jerarquía completa de un
vistazo como en el caso de una estructura arbórea y sólo puede ser establecida a partir de las
relaciones TG/TE. Por eso puede ser útil mantener algún tipo de jerarquía abierta (figura 4 o
figura 6A sin la notación y los elementos redundantes) como complemento de la figura 7.
La figura 7 muestra una presentación típica de tesauro. Como se ha visto, un tesauro
correctamente elaborado normalmente es alfabéticamente abierto y sistemáticamente cerrado.
La figura 7 contiene una clasificación jerárquica tan correcta como las que aparecen en las
figuras 4 y 6A.
Los siguientes capítulos tratan de la construcción de los tesauros: la recogida de material
(términos) y su Organización para la construcción de un instrumento eficaz en la recuperación
de información. Una consideración previa esencial es la de si es necesario elaborar un nuevo
tesauro. Un centro de documentación debería considerar la posibilidad de adoptar o adaptar
algún otro tesauro a sus propias necesidades. Otra posibilidad seria elaborar un microtesauro
que se ajuste a la estructura jerárquica de un tesauro más general. Estos planteamientos
posiblemente resulten menos costosos que el de elaborar un nuevo tesauro; además, favorecen la
compatibilidad y evitan la proliferación de vocabularios similares que pueden solaparse entre sí.

También podría gustarte