Está en la página 1de 33

Lancaster, Frederick W. El control del vocabulario en la recuperación de información.

--
Valencia : Universitat de Valencia, 1995. -- Cap. I, II, III.

Capítulo I
¿Por qué el control del vocabulario?

En los sistemas de recuperación de la información suele ser esencial el control del


vocabulario utilizado para representar las materias. El control del vocabulario en la
recuperación de información, como el propio título indica, trata de los distintos aspectos del
control del vocabulario en el contexto de la recuperación de información. Se centra
especialmente en el tesauro∗ ya que éste es el sistema de control del vocabulario más utilizado
en la recuperación de la información durante los últimos 20 años. Sin embargo, también se han
considerado otros aspectos, como el funcionamiento de los sistemas de recuperación de la
información sin control del vocabulario.
En la figura 1 se muestran los principales elementos de un sistema de recuperación de la
información. La entrada (input) consiste en los documentos (en su sentido más amplio, impresos
o de cualquier otro tipo) adquiridos por el centro de documentación que maneja el sistema. Esto
implica la existencia de criterios y políticas de selección, que a su vez implican un conocimiento
detallado y exacto de las necesidades de información de la comunidad a la que se dirige el
sistema. Una vez adquiridos los documentos, éstos han de ser «organizados y controlados» de
modo que puedan ser identificados y localizados en respuesta a los diferentes tipos de demandas
de los usuarios. Las actividades de organización y control incluyen la clasificación, la
catalogación, la indización y el resumen. Dos elementos importantes son la descripción física
del documento (catalogación descriptiva) y la elección de los puntos de acceso (autores, títulos)
para su inclusión en catálogos y bibliografías.
Como se observa en la figura 1 el proceso de indización implica dos fases intelectuales
bastante diferentes: el «análisis conceptual» de un documento y la «traducción» de aquél a un
vocabulario determinado. Para efectuar un análisis conceptual adecuado, el indizador necesita
no sólo la comprensión de la materia del documento, sino también un buen conocimiento de las
necesidades de los usuarios del sistema.
La segunda fase del proceso de indización es la traducción del análisis conceptual a un
vocabulario determinado. En la mayoría de los sistemas se cuenta con un «vocabulario
controlado», es decir, un conjunto limitado de términos que deben utilizarse para representar las
materias de los documentos. Este vocabulario puede ser una lista de encabezamientos de
materias, un esquema de clasificación, un tesauro o simplemente una lista «autorizada» de
frases o palabras clave.
Tras la indización, los documentos son almacenados de algún modo (base de datos de
documentos) y los registros de indización se organizan en una segunda base de datos de forma
que puedan ser buscados fácilmente en respuesta a distintos tipos de peticiones. La base de
datos de los registros de indización, o «representaciones de los documentos», puede ser
simplemente un fichero o un índice impreso. En la actualidad esta base de datos, normalmente,
será un fichero automatizado sobre cinta magnética o disco, que puede considerarse como el
«índice» del documento almacenado. El índice de la figura 1 consiste en una descripción
bibliográfica de cada documento de la colección junto a varios puntos de acceso, para que esta
representación sea recuperable, no sólo por los términos que describen las materias sino también
por otras características como autor y título.
En el diagrama se considera una base de datos bibliográfica (de documentos). Las fases no
cambiarían significativamente si se tratara de una base de datos de otro tipo (p. ej., numérica).
Los contenidos también han de indizarse para hacerlos accesibles, pero el «almacenamiento de
documentos» será sustituido por listas automatizadas de datos (físicos, químicos, numéricos o
estadísticos).


Aunque thesaurus se utiliza universalmente y conceptualmente es más preciso que tesauro, empleamos este último término debido
a su uso general, tras la publicación de la norma UNE 50-106-90, en los textos en castellano sobre el tema (N. del T.)
Las fases de la salida del sistema (output) son muy similares a las que se dan en la entrada.
Los usuarios realizan diferentes peticiones al centro de documentación y los documentalistas
preparan estrategias de búsqueda para esas peticiones. Resulta oportuno considerar también en
la preparación de las estrategias de búsqueda las fases de análisis conceptual y de traducción. La
primera fase implica un análisis de la petición para determinar lo que realmente busca el usuario
y la segunda consiste en la traducción del análisis conceptual al vocabulario del sistema. El
análisis conceptual de la petición, traducido al lenguaje del sistema, es la estrategia de
búsqueda, que puede considerarse como una representación de la petición, del mismo modo que
el registro de indización puede contemplarse como una representación del documento. La única
diferencia es que en aquélla normalmente existe «lógica» (es decir, se especifican un cierto
número de relaciones lógicas entre los términos), mientras que en el registro de indización las
relaciones lógicas entre los términos estarán más implícitas que explícitas.

Una vez terminada la estrategia de búsqueda se «compara» de algún modo con las
representaciones de los documentos de la base de datos. Esto puede hacerse mediante un fichero
manual, índices impresos, microfilm, cinta magnética o disco. En la actualidad, la búsqueda
puede hacerse online, desde un terminal en una biblioteca, aunque la base de datos esté a cientos
o miles de kilómetros de distancia. Las representaciones de los documentos que se ajustan a la
estrategia de búsqueda, es decir, que satisfacen los requerimientos lógicos de la búsqueda, son
recuperadas de la base de datos y ofrecidas al usuario de forma impresa o por pantalla. El
proceso acaba cuando el usuario queda satisfecho con los resultados de la búsqueda. En algunos
casos esto puede consistir en el convencimiento de que no hay nada en la base de datos que se
ajuste a sus necesidades.
La figura 1 indica con claridad el papel central que juega el vocabulario en un sistema de
recuperación de la información. Los indizadores tienen que utilizar los términos de este
vocabulario para representar las materias de los documentos. En las estrategias de búsqueda se
utilizarán los mismos términos para la interrogación a la base de datos. Podemos hacernos una
idea de lo que podría ocurrir si el sistema funcionara sin control del vocabulario examinando la
lista de términos de la figura 2. Puede considerarse que todos ellos (y la lista no es completa)
tienen algo que ver con el proceso de «unión» (de materiales como los metales y los plásticos).
La lista contiene una amplia variedad de tipos de términos: algunos (como conexión, soldadura
fuerte, encolado) representan procesos de unión; otros (como planchas y hojas) representan
cosas que pueden ser unidas; otros representan tipos de uniones (aglomerados, soldadura); y
otros se refieren a sustancias (aleaciones, colas) o instrumentos (soldadores, varillas soldadoras),
propiedades de materiales o uniones (fragilidad, resistencia) o procesos que pueden afectar a las
uniones (corrosión, deterioro, etc.).

Estos términos pueden aparecer en un catálogo alfabético de materias o en un índice (p.ej.,


de una enciclopedia o un boletín de resúmenes), donde podrían estar entremezclados con
muchos otros términos relacionados con otras materias. En ese caso, la persona interesada en
información sobre unión, tendría varios problemas. En primer lugar, algunos de los términos de
la lista significan casi lo mismo; es decir, son sinónimos o cuasisinónimos. Un ejemplo es
«láminas» y «planchas»; a nivel muy técnico, «soldadura de arco cubierto» puede ser
considerado sinónimo de «soldadura de arco sumergido». Si estas variaciones terminológicas no
se hacen equivalentes en el contexto de un determinado campo temático, sería preferible
relacionar los sinónimos escogiendo uno de ellos y remitiendo a él desde los demás como en el
siguiente ejemplo:
Otro problema que se presenta es que algunos términos son ambiguos fuera de su contexto.
Así, «articulaciones» podría referirse al enlace entre dos piezas de una máquina o instrumento o
a las uniones anatómicas y «fatiga» podría referirse a cansancio o al fenómeno de disminución
de resistencia de los metales. Se debería reducir tal ambigüedad, por ejemplo, mediante un
calificador entre paréntesis:

articulaciones (anatómicas)

El mayor problema posiblemente sea que en una lista alfabética los términos con
significados cercanos aparecerán separados. Aunque sea improbable que alguien plantee una
búsqueda sobre cada aspecto del tema unión, sí es posible que alguien quiera recuperar toda la
información relativa a algún tipo de unión, como unión por adherencia. El orden alfabético va a
separar muchos términos relacionados con esa materia: adhesivos, aglomerantes, cementos,
colas, gomas, etc. Sería útil para el que busca información que todos los términos con
significados relacionados estuvieran unidos de algún modo, como en el siguiente ejemplo:

En el diagrama se puede observar que están representados dos tipos de relaciones. Uno es
la relación permanente entre una cosa y tipos de esa cosa (entre un género y sus especies):
fractura y rotura son siempre tipos de averías. El otro tipo de relación es más transitorio; por
ejemplo, el proceso de avería puede estar inducido por otros procesos como corrosión y fatiga e
influido por propiedades físicas como resistencia y tenacidad. A la relación genérica permanente
a veces se la conoce como relación paradigmática o relación a priori, mientras que a la relación
más transitoria (la avería puede estar ocasionada por la corrosión, pero no siempre se debe a ella
ni la corrosión conduce siempre a una avería) en ocasiones se la llama relación sintagmática o a
posteriori.
Los ejemplos vistos, basados en los términos de la figura 2, demuestran claramente los
objetivos del control del vocabulario en un sistema de recuperación de la información. Estos
objetivos pueden resumirse en:

1. Facilitar la representación consistente de las materias por parte de indizadores y usuarios


que recuperan, evitando la dispersión de los elementos relacionados. Esto se consigue con el
control (agrupación) de los sinónimos y cuasisinónimos y la distinción de los homógrafos.
2. Facilitar la realización de una búsqueda amplia sobre una materia enlazando los términos
con relaciones paradigmáticas o sintagmáticas.

La indización tiende a ser más consistente cuando el vocabulario utilizado está controlado.
Será más probable que los indizadores estén de acuerdo sobre los términos necesarios para
representar una determinada materia, si éstos son seleccionados de una lista previa que si
pueden utilizar cualquier término. Lo mismo ocurre en el proceso de búsqueda: será más fácil
identificar los términos apropiados a una necesidad de información si son seleccionados de una
lista determinada. Por lo tanto, el vocabulario controlado facilita la coincidencia entre el
lenguaje de los indizadores y el de los usuarios que hacen la búsqueda.
Un vocabulario controlado no necesita más que un limitado conjunto de términos que
puedan ser utilizados por el indizador y el usuario. Sin embargo, normalmente los términos
están sujetos a algún tipo de estructura para que aquellos que tienen significados cercanos
aparezcan juntos o relacionados de alguna forma. Ello ayudará, tanto al indizador como al
usuario que hace la búsqueda, a poder seleccionar los términos más adecuados para representar
una determinada materia. Y, aún más importante, ayudará al usuario a identificar todos los tér-
minos necesarios para realizar una búsqueda amplia sobre alguna materia.

Capítulo II
Sistemas precoordinados y postcoordinados

La clasificación está presente en todas las actividades de recuperación de la información.


La indización es, evidentemente, un proceso de clasificación. Cuando un indizador determina
que un documento trata del efecto de la televisión sobre los hábitos de lectura de los
preescolares y asigna al documento los términos PREESCOLARES, TELEVISIÓN y
HÁBITOS DE LECTURA, está asignando el documento a tres clases representadas por esos
términos; es decir, el indizador agrupa el documento junto a otros que previamente han sido
incluidos en una u otra de esas clases. Los términos utilizados por el indizador para representar
las materias pueden considerarse denominaciones que identifican a varias clases. Por eso
pueden llamarse identificadores de clase, aunque habitualmente se les llama términos de
indización o descriptores. A todo el conjunto de términos utilizados para describir las materias
contenidas en una base de datos a veces se le conoce como lenguaje de indización. Un
vocabulario controlado es un tipo de lenguaje de indización en el que la terminología está con-
trolada.
La clasificación también se manifiesta en el modo en que es interrogada una base de datos.
La estrategia de búsqueda supone decidir qué clases, representadas en una base de datos, pueden
contener elementos relevantes para una determinada necesidad de información e interrogar al
sistema de forma que los elementos de esas clases sean recuperados. Esto implica la capacidad
de combinar clases de forma que los únicos elementos recuperados sean aquellos que satisfagan
una determinada condición lógica. Si se quiere información sobre los hábitos de lectura de los
preescolares sólo deberían recuperarse los elementos que aparezcan tanto en la clase
PREESCOLARES como en la clase HÁBITOS DE LECTURA.
Para una recuperación efectiva de la información es esencial que las clases puedan
combinarse entre sí con total flexibilidad. Consideremos, por ejemplo, un documento indizado
con los términos: LAGOS, CONTAMINACIÓN DEL AGUA, COMPUESTOS DE
MERCURIO Y PECES. Probablemente este documento tratará del efecto sobre los peces de la
contaminación de los lagos causada por compuestos de mercurio. No sólo se debería recuperar
este documento en respuesta a una búsqueda sobre ese tema concreto, representado por la
interrelación de las cuatro clases, sino también en respuesta a una búsqueda con cualquier nivel
de relación entre las cuatro clases (p.ej., PECES y COMPUESTOS DE MERCURIO;
CONTAMINACIÓN DEL AGUA y LAGOS; COMPUESTOS DE MERCURIO y
CONTAMINACIÓN DEL AGUA y PECES), ya que cualquiera de esas relaciones puede
considerarse relevante. Ésta es la diferencia fundamental entre los sistemas de recuperación
precoordinados y los post-coordinados (Soergel, 1974, los llama «precombinados» y
«postcombinados»).
La figura 3 muestra la distinción entre ellos. Un documento ha sido indizado con cuatro
términos (asignado a cuatro clases). En un sistema postcoordinado se conserva la
multidimensionalidad de la relación entre las cuatro clases: no es preciso un orden de clases ya
que todas tienen el mismo peso y permite recuperar el documento independientemente de cuál
sea la combinación de los cuatro términos que se plantee en la búsqueda. Esto es cierto para
todos los sistemas automatizados (offline y online), para sistemas de recuperación con
microfilm y varios predecesores de los sistemas modernos (tarjetas peek-a-boo, tarjetas
perforadas, tarjetas de perforación marginal). Sin embargo, un índice de materias impreso o en
forma de fichero convencional pierde la multidimensionalidad. Es posible la confección de una
entrada en la que estén presentes todos los términos de indización, pero tendrán que estar
ordenados en una secuencia lineal, y sólo podrá accederse al documento a través del primer
término de la cadena. Por ejemplo, en la figura 3 la entrada del índice PECES, LAGOS,
COMPUESTOS DE MERCURIO, CONTAMINACIÓN DEL AGUA permite la recuperación
sólo si el usuario busca en el índice el término PECES, ya que los otros términos son
subdivisiones o modificadores de él. Este tipo de índice es el que llamamos precoordinado: las
clases se coordinan (combinan) en una cierta secuencia durante la construcción del índice; el
usuario no puede combinar libremente las clases y por tanto, no puede recuperar documentos a
partir de aspectos que no estén explícitos en el índice.
En un índice precoordinado pueden multiplicarse las entradas y existen procedimientos
para conseguir, de forma sistemática, el número de entradas necesarias (o, en algunos casos, una
única entrada con referencias cruzadas) incluso con ordenador. Algunos de los métodos son la
rotación sistemática, empleada en Excerpta Medica y Applied Mechanics Reviews (Juhasz et al.,
1980): el índice SLIC (Sharp, 196); la indización encadenada (Wilson, 1971); la ordenación
preferencial, utilizada, por ejemplo, en el British Technology Índex (Coates, 1960); y PRECIS
(Foskett, 1982). La multiplicación de entradas en un índice precoordinado, puede proporcionar
múltiples puntos de acceso, pero, por razones de espacio y de coste, suele haber un límite en el
número de puntos de acceso posibles, cosa que no ocurre en un índice postcoordinado. Además,
independientemente del número de puntos de acceso, un índice precoordinado no le da al
usuario la posibilidad que le ofrece el postcoordinado de manipular las clases libremente. Por
esa razón también se les llama manipulable (postcoordinado) y no manipulable (precoordinado)
(Bernier, 1956).
En el ejemplo de la figura 3 el índice precoordinado considerado es un índice alfabético de
materias. Limitaciones similares nos encontramos cuando se trata de un esquema de
clasificación. Por ejemplo, la entrada del índice podría ser AbEfGccKp, donde Ab representaría
a «peces», Ef a «lagos», etc.
El control del vocabulario es aplicable tanto a los sistemas precordinados como a los
postcoordinados. Sin embargo, este libro se ocupa fundamentalmente del control del
vocabulario en los sistemas postcoordinados.
Capítulo III
Estructura y presentación del vocabulario

En general, un vocabulario controlado debería tener dos partes complementarias: una


organización sistemática de los términos y una lista alfabética de esos términos. Esas partes
pueden estar separadas o completamente integradas.

Clasificaciones abiertas

Una forma posible de presentación sistemática de un vocabulario es como «estructura


arbórea», de manera semejante a un árbol genealógico familiar. En el ejemplo de la figura 4 se
puede observar que la disposición refleja relaciones de género/especies: «cámaras de filmación»
es una de las cuatro especies de «cámaras»; «cámaras cinematográficas» es una de las dos
especies de «cámaras de filmación»; etc. Uno de los términos, «cámaras cinematográficas
sumergibles», tiene dos genéricos, cámaras sumergibles y cámaras cinematográficas.
Si un vocabulario se dispusiera de este modo, cada árbol (jerarquía) ocuparía una página
separada. El resultado impreso se asemejaría a un atlas, con un «mapa» de la terminología de
una materia en cada página; el mapa de la figura 4 se identifica con el número E4 17. Se podría
incluir en los mapas algún tipo de referencias cruzadas que asociaran los términos relacionados
entre sí (de la misma manera que en un mapa de carreteras se envía de una parte a otra), aunque
en la figura no aparecen dichas referencias. Por ejemplo, el mapa «cámaras» podría asociarse a
otro mapa, «fotografía»; «cámaras sumergibles» a «exploración submarina»; etc.
Aunque se incluyeran tales referencias en los mapas, también sería necesario un índice
alfabético. La figura 5 muestra entradas de un índice de este tipo. En él no sólo se indica la
referencia al mapa en la que está incluido un determinado término; también proporciona
relaciones cruzadas a los mapas relacionados, de forma que fotografía está unido a cámaras,
cámaras sumergibles a buceo, etc. Estas relaciones se indican mediante la abreviatura TR, que
significa «término relacionado» (en inglés, RT, related term).
Las entradas del índice de la figura también muestran el control de los sinónimos.
«Cámaras SLR» y «cámaras reflex de un objetivo» son considerados como sinónimos; el
usuario que entre en la lista por el primer término será enviado («use») al segundo. Esta relación
es recíproca: bajo «cámaras reflex de un objetivo» se indica, mediante «UP» (en inglés, «UF»,
use for), que se utiliza este término en lugar de «cámaras SLR». Por último, los términos con
significados poco claros van acompañados de notas de aplicación, una breve definición de cómo
es utilizado el término en el contexto del vocabulario del sistema. Se indican con NA (en inglés,
SN, scope notes).
El vocabulario de las figuras 4 y 5 satisface todos los objetivos de un vocabulario
controlado: los sinónimos están controlados, y los términos relacionados aparecen juntos para
facilitar al indizador y al recuperador la selección de los términos más apropiados para
representar una determinada materia y ayudar al usuario a identificar todos los términos
necesarios para realizar una búsqueda exhaustiva sobre un tema. La estructura arbórea del
lenguaje de indización contempla la relación paradigmática, mientras que los términos rela-
cionados establecen la relación sintagmática. Además, el vocabulario tiene una disposición
sistemática y una disposición alfabética.
El vocabulario mostrado puede considerarse como un tipo de esquema de clasificación con
un índice alfabético complementario. Este es un modo totalmente aceptable de control del
vocabulario, con dos excepciones. La primera se da en el caso de jerarquías muy extensas, en
las que pueden haber problemas de estructuración (p. ej., cámaras podría ser un elemento de una
jerarquía de «equipo» mucho más larga). La segunda es, que si el vocabulario es extenso, esta
forma de disposición puede ser antieconómica por la gran cantidad de espacio ocupado.
Un tipo de esquema de clasificación más usual (parecido a los esquemas de clasificación
bibliográfica utilizados en las bibliotecas) es el que se muestra en la figura 6. En la figura 6A
aparece la estructura arbórea de la figura 4 en forma «sistemática». Esta es más completa que la
arbórea, pero presenta desventajas. Aunque se utiliza el sangrado para representar los niveles
jerárquicos, éstos no se muestran de forma tan clara como en la estructura arbórea. No es tan
evidente que «cámaras cinematográficas sumergibles» está subordinado tanto a «cámaras
cinematográficas» como a «cámaras sumergibles»; de hecho, el término aparece en dos lugares,
lo que resulta confuso y ambiguo ya que en un lugar aparece la notación 305 y en el otro la 317.
La figura 6A también ilustra un aspecto importante que parece confundir a algunos
estudiantes de biblioteconomía. El sistema de numeración («notación») que aparece junto a los
términos sólo sirve para mantener la secuencia de la estructura sistemática impresa y para actuar
como una adecuada «nota taquigráfica» para representar los términos (especialmente en los
lomos de los libros ordenados en las estanterías). El ejemplo podría ser una clasificación de la
terminología sobre cámaras si la notación fuera eliminada, como es el caso de la figura 4, sin
notación, que muestra una verdadera clasificación de esta terminología, presentada de una forma
diferente.
La presentación sistemática de la figura 6A también necesita un índice alfabético, que
se muestra en la figura 6B. A diferencia de las figuras 4 y 5, las figuras 6A y 6B no son
completamente complementarias. Existe mucha redundancia porque las referencias TR e incluso
las notas de aplicación aparecen duplicadas en las dos partes. Sin embargo, el vocabulario
satisface los requisitos de un vocabulario controlado, como se explica en el primer capítulo.

Clasificaciones cerradas

Una tercera posibilidad de presentación es la mostrada en la figura 7. En este caso, se han


reordenado los términos de la figura 4 en orden alfabético y se han entremezclado con los de
otras jerarquías. Lo más significativo de esta ordenación es que aquí también se reproduce la
jerarquía de la figura 4. En este caso, el género de un término aparece como «término genérico»
(TG) (en inglés, BT, broader term) y cada especie del término como «término específico» (TE)
(en inglés, NT, narrow term). Por ejemplo, «cámaras réflex» es una especie de «cámaras
fotográficas» (es decir, «cámaras fotográficas» es su genérico TG) y «cámaras réflex» tiene dos
específicos (TE). Estas relaciones son reciprocas: «cámaras» aparece cómo TG de «cámaras
sumergibles» y «cámaras sumergibles» como TE de «cámaras».
Aunque la ordenación es alfabéticamente abierta, las relaciones TG/TE constituyen una
clasificación cerrada. No habría sido posible llegar a esta ordenación sin haber desarrollado
previamente la jerarquía mostrada en la figura 4. Esta figura puede ser obtenida de la figura 7 y
a la inversa. Además es posible crear un programa de ordenador para obtener la estructura
TG/TE de la figura 7 a partir de la estructura arbórea de la figura 4 y viceversa.
Se puede observar que la figura 7 también incorpora el control de sinónimos (reenvío use), la
estructura TR y las notas de aplicación que aparecen en las presentaciones anteriores. Esto
también satisface los requisitos de un vocabulario controlado. Además, como la presentación es
alfabética, con la jerarquía cerrada marcada por una estructura de referencias cruzadas, se
satisfacen los requisitos en una disposición única; es decir, se combinan las disposiciones
sistemática y alfabética. Desde luego, no puede contemplarse la jerarquía completa de un
vistazo como en el caso de una estructura arbórea y sólo puede ser establecida a partir de las
relaciones TG/TE. Por eso puede ser útil mantener algún tipo de jerarquía abierta (figura 4 o
figura 6A sin la notación y los elementos redundantes) como complemento de la figura 7.
La figura 7 muestra una presentación típica de tesauro. Como se ha visto, un tesauro
correctamente elaborado normalmente es alfabéticamente abierto y sistemáticamente cerrado.
La figura 7 contiene una clasificación jerárquica tan correcta como las que aparecen en las
figuras 4 y 6A.
Los siguientes capítulos tratan de la construcción de los tesauros: la recogida de material
(términos) y su Organización para la construcción de un instrumento eficaz en la recuperación
de información. Una consideración previa esencial es la de si es necesario elaborar un nuevo
tesauro. Un centro de documentación debería considerar la posibilidad de adoptar o adaptar
algún otro tesauro a sus propias necesidades. Otra posibilidad seria elaborar un microtesauro
que se ajuste a la estructura jerárquica de un tesauro más general. Estos planteamientos
posiblemente resulten menos costosos que el de elaborar un nuevo tesauro; además, favorecen la
compatibilidad y evitan la proliferación de vocabularios similares que pueden solaparse entre sí.
1
Lancaster, Frederick W. El control del vocabulario en la recuperación de información. --
Valencia : Universitat de Valencia, 1995. -- Cap. VI, VII, X, XI y XVI.
---------------------------------------------------------------------------------------------------------------------------
Capítulo VI
Organización de los términos: la relación jerárquica

Una vez recogidos los términos mediante alguno de los procedimientos vistos en el capitulo 4,
hay que organizarlos dentro de una estructura lógica. Supongamos que se está elaborando un tesauro
en el campo de la biblioteconomía, que los términos se han extraído de la Library and information
Science Abstracts, y que se han anotado en tarjetas. Una vez acabada la recogida (cuando se alcanza el
punto en que decrece la aparición de términos candidatos), se agrupan las tarjetas con términos
«semejantes». Por ejemplo, un conjunto de tarjetas se refiere a tipos de bibliotecas; otro se refiere a
tipos de materiales que manejan las bibliotecas, un tercero a los tipos de servicios que proporcionan
las bibliotecas; etcétera.
La figura 9 ilustra este proceso. La terminología sobre biblioteconomía aparece dividida según
una serie de aspectos o facetas. Unos conjuntos serán relativamente grandes si la faceta es amplia;
otros pueden ser bastante pequeños. De hecho puede ser necesario crear un pequeño conjunto de
contenido general para colocar aquellos términos que no encajen bien en ninguna de las facetas
principales.
Después de haber identificado de este modo las facetas, hay que organizar de forma jerárquica
cada una de ellas. Es imposible llegar a tener una estructura de tesauro adecuada sin haber elaborado
previamente un esquema de clasificación. La figura 10 muestra las jerarquías parciales de dos facetas
de biblioteconomía. Se trata de una verdadera clasificación de parte de la terminología sobre
biblioteconomía; la asociación de una notación con los términos no es un elemento esencial del
esquema de clasificación. La estructura clasificatoria es abierta, y los niveles están claramente
identificados mediante sangrados. Para establecer la estructura del tesauro a partir de los términos de
la figura 10 debemos ordenar los términos alfabéticamente y utilizar los reenvíos TG/TE debajo de
cada término para indicar las relaciones jerárquicas establecidas.
2

Figura 9. Aplicación del análisis por facetas a los términos.


3
En la figura 11 se da un ejemplo de lo anterior. Mientras que la clasificación de la figura 10 es
abierta, las entradas de la figura 11 reflejan una clasificación cerrada. Sin embargo, si se hubieran
obtenido todas las entradas del tesauro, el resultado sería un esquema de clasificación como el de la
figura 10. Las entradas de la figura 11 podrían obtenerse de la figura 10 mediante un programa de
ordenador, igual que la figura 10 podría generarse a partir del conjunto de entradas de un tesauro.
Sin embargo, al comparar las dos figuras, es evidente que las entradas del tesauro reflejan sólo
una jerarquía hacia arriba y hacia abajo. Por ejemplo,

MICROFORMATOS (figura 11) muestra uno de sus específicos, MICROFICHA, pero no aparece
ULTRAMICROFICHA, que sólo es TE de MICROFICHA.
Es recomendable aplicar este procedimiento «un nivel arriba, un nivel abajo» en un tesauro
impreso, sobre todo para ahorrar espacio. Sin embargo, algunos tesauros no adoptan ese
procedimiento. En lugar de ello, listan todos los niveles de términos específicos debajo de cada
entrada, como en el siguiente ejemplo:

BIBLIOTECAS
TE BIBLIOTECAS ACADÉMICAS
BIBLIOTECAS ACADÉMICAS ESPECIALIZADAS
BIBLIOTECAS DE COLEGIOS UNIVERSITARIOS
BIBLIOTECAS ESCOLARES
BIBLIOTECAS DE ESCUELAS PRIMARIAS
BIBLIOTECAS DE ESCUELAS SECUNDARIAS
BIBLIOTECAS ESPECIALIZADAS
BIBLIOTECAS INDUSTRIALES
BIBLIOTECAS NACIONALES
BIBLIOTECAS PÚBLICAS
BIBLIOTECAS RURALES
BIBLIOTECAS UNIVERSITARIAS
BIBLIOTECAS URBANAS

Este tipo de presentación ocupa espacio y la mezcla de niveles jerárquicos da lugar a confusión.
Es más útil una presentación con los términos específicos de forma alfabética-sistemática:
4

BIBLIOTECAS
TE BIBLIOTECAS ACADÉMICAS
BIBLIOTECAS DE COLEGIOS UNIVERSITARIOS
BIBLIOTECAS UNIVERSITARIAS
BIBLIOTECAS ESCOLARES
BIBLIOTECAS DE ESCUELAS PRIMARIAS
BIBLIOTECAS DE ESCUELAS SECUNDARIAS
BIBLIOTECAS ESPECIALIZADAS
BIBLIOTECAS ACADÉMICAS ESPECIALIZADAS
BIBLIOTECAS INDUSTRIALES
BIBLIOTECAS NACIONALES
BIBLIOTECAS PÚBLICAS
BIBLIOTECAS RURALES
BIBLIOTECAS URBANAS

Este sistema también ocupa espacio, pero al menos revela los niveles de jerarquía a simple vista.
Un tesauro pensado sólo para el funcionamiento online, indudablemente no presentaría
problemas de espacio. En tal caso, tendría más sentido estructurar todos los niveles de la jerarquía
debajo de cada término, facilitando al usuario una ampliación de la consulta.
Las jerarquías de la figura 10 y las entradas del tesauro obtenidas a partir de ellas se basan en una
relación género/especies estricta. En general, la relación TG/TE debería ser siempre género/especies;
es decir, los términos específicos deben representar un «tipo» de término genérico. Si no es así,
probablemente no será un verdadero TE. Consideremos la siguiente entrada de un tesauro:

LANZAMIENTO
TE CATAPULTAS
LANZADORES DE COHETES
LANZADORES DE MISILES DIRIGIDOS
LANZADORES DE TORPEDOS
LANZAMIENTO SUBMARINO

Sólo el último término representa una verdadera especie (es decir, un tipo de lanzamiento); los
otros deberían ser agrupados bajo el término genérico DISPOSITIVOS DE LANZAMIENTO.
Un error que los estudiantes cometen en ocasiones es el confundir la relación cosa/tipo (la
verdadera relación TG/TE) con la relación cosa/aplicación o cosa/derivado: TARTAS DE
MANZANA no es un TE de MANZANAS, sino de TARTAS.
La mayoría de las veces, la relación todo/parte (partitiva) tampoco es una verdadera relación
TG/TE; es decir, RUEDAS DE BICICLETA es correcto como TE de RUEDAS pero no de
BICICLETAS. Sin embargo, en algunas áreas temáticas, la relación partitiva es tratada, por
convención, como si fuera una relación genérica. Los ejemplos más claros de esto son la anatomía y la
geografía. Los siguientes tipos de entradas pueden ser aceptables:

SISTEMA RESPIRATORIO CHILE


TE BRONQUIOS TE SANTIAGO
PULMONES VALPARAÍSO

Aunque, evidentemente, los pulmones no son tipos de sistemas respiratorios ni Valparaíso es un


tipo de Chile.
Las directrices de la Unesco indican otros dos casos en los que la relación todo/parte también
puede considerarse como una relación TG/TE: «campos de conocimiento» (BIOLOGÍA podría ser un
TE de CIENCIAS) y «estructuras sociales» (CUERPOS podría ser un TE de EJÉRCITOS).
En otras áreas, si existe una razón de peso para agrupar las partes bajo el todo, conviene que la
relación genérico/específica y la relación todo/parte estén separadas. Las directrices de la Unesco
5
permiten distinguir entre relaciones TEG (término especifico genérico) y TEP (término específico
partitivo). Un ejemplo de ello es:
CASAS
TEG CASAS DE DOS PISOS
CASAS DE TRES PISOS
CASAS DE UN PISO

TEP PAREDES
SUELOS
TECHOS
TEJADOS

Aunque esto es aceptable, existen otras soluciones. Por ejemplo, estos términos, que son parte de
un conjunto, podrían agruparse bajo un TG diferente (p. ej., ELEMENTOS DE CONSTRUCCION).
La entrada anterior podría transformarse en:

CASAS
TE CASAS DE DOS PISOS
CASAS DE TRES PISOS
CASAS DE UN PISO

TR ELEMENTOS DE CONSTRUCCIÓN

Si se hace la distinción TEP/TEG, también debe hacerse la distinción en el nivel TG (p. ej.,
Casas de dos pisos-TGG Casas, Techos-TGP Casas)
Las directrices de la Unesco también consideran como válida la relación TG/TE «casos».
Puede aceptarse el siguiente tipo de entrada:

PRERRAFAELISTAS
TE DANTE GABRIEL ROSSETTI
WILLIAM HOLMAN HUNT
JOHN EVERETT MILLAIS

Rossetti no es propiamente un tipo de prerrafaelista, sino un ejemplo de ello. Evidentemente este


tipo de relación será importante en tesauros de muchas áreas de humanidades.
En general la mayoría de los términos de un tesauro tendrán sólo un TG. La aparición en varias
jerarquías de una gran proporción de términos (es decir, que tienen más de un TG) es indicativo de
una deficiente elaboración del tesauro.
Sin embargo, habrá casos en los que un término puede aparecer en más de una jerarquía, sobre
todo en el caso de un tesauro multidisciplinario. Por ejemplo, DIAMANTES podría ser un TE de
INSTRUMENTOS CORTADORES y de PIEDRAS PRECIOSAS.
Todas las decisiones que se tomen deben tener en cuenta el campo cubierto por el tesauro y los
usuarios a los que está destinado. Por ejemplo, en un tesauro de odontología el término ORO sería un
TE de MATERIALES PARA EMPASTE; no tendría mucho sentido la jerarquía «metales» o «metales
preciosos». Por otra parte, en un tesauro general, ORO debería aparecer en la jerarquía de metales y
no en una que representara aplicaciones del oro, aunque, en algunas ocasiones (como en el caso del
ejemplo del diamante) podría estar justificado su inclusión en ambas. En caso de duda, el término
debe incluirse en la jerarquía con la que se relaciona habitualmente; por ejemplo, los diamantes son en
todos los casos piedras preciosas, pero no siempre se utilizan como instrumentos cortadores.
En un tesauro, a diferencia de un esquema de clasificación por facetas, es correcto agrupar como
TE un número de términos derivados del genérico (TG) por la aplicación de distintos principios de
división, como en el siguiente ejemplo:

TUBERÍAS
6
TE TUBERÍAS CIRCULARES
TUBERÍAS DE PLÁSTICO
TUBERÍAS METÁLICAS
TUBERÍAS NO CIRCULARES
TUBERÍAS PARA AGUA
TUBERÍAS PARA VAPOR

Aquí son evidentes tres principios de división diferentes: forma, material y aplicación. En una
clasificación por facetas se podría agrupar a los términos según cada principio, que se indicaría
explícitamente:

TUBERÍAS
(por su forma)
TUBERÍAS CIRCULARES
TUBERÍAS NO CIRCULARES

(por material)
TUBERÍAS DE PLÁSTICO
TUBERÍAS METALICAS

(por aplicación)
TUBERÍAS PARA AGUA
TUBERÍAS PARA VAPOR

En una clasificación por facetas es necesario lo anterior, ya que hay que combinar las notaciones
en un determinado orden para poder expresar una entidad más compleja (p. ej., tuberías no circulares
de plástico para transportar agua), pero no es necesario en el caso de un tesauro ya que los términos
del mismo pueden ser asignados libremente a un documento sin importar la secuencia; un artículo que
trate sobre la materia del ejemplo anterior podría indizarse mediante TUBERÍAS PARA AGUA,
TUBERÍAS DE PLÁSTICO y TUBERÍAS NO CIRCULARES.
Sin embargo, en el caso de jerarquías muy amplias, puede ser conveniente ordenar los TE según
un principio de división:
JUGUETES
TE (por materiales)
JUGUETES DE GOMA
JUGUETES DE MADERA
JUGUETES DE METAL
JUGUETES DE PLASTICO
JUGUETES DE TELA

TE (por grupos de edad)


JUGUETES PARA ADULTOS
JUGUETES PARA NIÑOS
JUGUETES PARA RECIÉN NACIDOS

TE (por manejo)
JUGUETES DE IMPULSIÓN
JUGUETES DE TRACCIÓN
JUGUETES ELÉCTRICOS
JUGUETES MECÁNICOS

Este tipo de organización está admitida en las directrices de la Unesco, en las que al principio de
división establecido en el tesauro se le da el nombre de «indicador clasificatorio» o «indicador de
faceta».
7
Es improbable que las jerarquías de un tesauro convencional sean simétricas; unas serán amplias
y otras muy pequeñas. Incluso pueden haber «jerarquías» de un solo término. Por ejemplo, un tesauro
de biblioteconomía puede incluir términos como DETERIORO o EFICACIA, que no se ajustan a
ninguna de las jerarquías principales. En general, este último caso debe evitarse en lo posible. Es
preferible crear un término genérico artificial que permita agrupar a un conjunto de términos y que de
otro modo serían difíciles de organizar:

PROPIEDADES GENERALES
TE COLOR
DURABILIDAD
FORMA
TAMAÑO

La relación jerárquica está bastante bien definida y se pueden formular directrices precisas para
asegurar que la relación TG/TE se aplica correctamente. La relación asociativa, mucho menos clara,
se estudia en el capítulo 7.

Capítulo VII
Organización de los términos: la relación asociativa

La relación asociativa (representada en el tesauro con TR, que corresponde a «término


relacionado») no es una relación jerárquica. En efecto, lo único categórico que se puede decir sobre
esta relación es que no debe ser utilizada para relacionar términos que aparecen en la misma jerarquía.
Aunque algunos de los tesauros existentes silo hacen (p. ej., BIBLIOTECAS DE COLEGIOS
UNIVERSITARIOS TR BIBLIOTECAS UNIVERSITARIAS), ello es innecesario ya que la relación
entre los términos se establece mediante el TG común:

BIBLIOTECAS ACADEMICAS
TG BIBLIOTECAS
TE BIBLIOTECAS DE COLEGIOS UNIVERSITARIOS
BIBLIOTECAS UNIVERSITARIAS

Las recomendaciones de la Unesco permiten este tipo de relación cuando los significados de los
términos de la misma jerarquía se solapan parcialmente o quedan poco claros por separado (por
ejemplo, BURROS como TR de MULAS y viceversa), pero aun así parece redundante.
La relación asociativa es sintagmática o a posteriori. En esta relación no es posible establecer
normas precisas, a diferencia de la relación jerárquica. Lo único que se puede precisar es que dos
términos cuyos significados están relacionados, pero que aparecen en diferentes jerarquías, son
candidatos a una relación TR.
Algunos autores han señalado la posibilidad de llegar a establecer los TR a través de un tipo de
juego asociativo semejante a la «asociación libre» utilizada en algunos tipos de tests psicológicos (p.
ej., Papier y Cortelyou, 1962), pero este procedimiento resulta innecesario y artificial.
La confección de tablas de coaparición de términos a partir de una base de datos, como se señala
en el capítulo 4, puede indicarnos qué términos están «relacionados» en un sentido asociativo. Si esto
no es posible, el autor del tesauro puede confiar en su sentido común y en su conocimiento de la
materia.
Los siguientes tipos de relaciones entre términos nos orientan sobre los casos en que se puede
establecer la relación TR.

1. Entre una «cosa» y su aplicación


ADHESIVOS
TR UNIONES

y el inverso,
8
UNIONES
TR ADHESIVOS

2. Entre un efecto y una causa (y viceversa)


FRACTURA QUEBRADIZA
TR FRAGILIDAD POR EL HIDRÓGENO

3. Entre una «cosa» y una propiedad íntimamente asociada a ella


GOMA
TR ELASTICIDAD

4. Entre una materia prima y un producto


CAOLÍN
TR PORCELANA

5. Entre dos actividades complementarias


ENSEÑANZA
TR APRENDIZAJE

6. Entre ciertos opuestos


VIDA
TR MUERTE

7. Entre una actividad y una propiedad asociada a ella


FLEXIÓN
TR PLASTICIDAD

8. Entre una actividad y un agente de esa actividad


PROCESO DE DATOS TR SISTEMAS AUTOMATIZADOS

9. Entre una actividad y un producto de esa actividad


CONSTRUCCIÓN
TR ESTRUCTURAS

10. Entre una cosa y sus partes (que no pueden separarse)


AVIONES
TR FUSELAJE

Las recomendaciones de la Unesco proporcionan ejemplos adicionales, así como Barhydt y


Schmidt (1968), Gerd (1980) y Willetts (1975).
En todos los casos la prueba determinante es, sencillamente, « ¿Es probable que alguien que
busque información indizada con el término A pueda estar interesado también en la información
indizada con el término B?». Si la respuesta es afirmativa, A y B deberían estar relacionados mediante
TR, en el supuesto de que ambos términos no hayan sido ya relacionados con TG/TE.
Aunque no sea una condición indispensable que la relación TR sea recíproca, es conveniente
hacerlo, al menos para facilitar el mantenimiento del tesauro. Cuando A muestra que B es su TR, pero
no ocurre así en B, existe peligro de que si B es eliminado posteriormente, se mantendrá bajo el
término A un reenvío inexistente.
La clara distinción entre las relaciones TG/TE y TR permite considerar al tesauro como un
instrumento muy superior a las listas de encabezamientos de materias utilizadas tradicionalmente en
las bibliotecas. En la lista de encabezamientos de materias, ambas relaciones están incluidas en la
referencia ver también como se muestra en el siguiente ejemplo:

FRACTURA
9
ver también AGRIETAMIENTO
FRACTURA QUEBRADIZA
FRAGILIDAD
FRAGILIDAD POR EL HIDRÓGENO

Por otra parte, lo habitual en los encabezamientos de materias, es que el reenvío se haga del
general al específico, pero raramente en sentido inverso. Así, probablemente encontraríamos el
reenvío UNIONES ver también SOLDADURA, pero no SOLDADURA ver también UNIONES. En
otras palabras, no se hace explícitamente recíproca la relación. A diferencia de un tesauro bien
estructurado, la lista de encabezamientos de materias no es una clasificación jerárquica estricta y no
podemos establecer ésta automáticamente a partir de una lista de encabezamientos de materias.
El tesauro del American Petroleum Institute (1982) es un caso excepcional que contiene tanto los
reenvíos ver también como los TR, aunque aquéllos tienen un uso más extenso que los últimos. La
relación ver también aparece aquí de forma más fortuita que la TR. Cuando a un documento se le
asigna el término A, automáticamente se le asigna también el término B («autorreferencia»), si B es
un TR de A. La autorreferencia de algunos ver también introduce un elemento de confusión.
Realmente, el reenvío ver también de este tesauro equivale a la relación asociativa. El reenvío TR se
utiliza en realidad para unir un término a una jerarquía diferente a la que él pertenece; aquí TR
significa más bien «término genérico adicional».

Capítulo X
Homografía y notas de aplicación

Un homógrafo consiste en una cadena de caracteres con más de un significado (p.ej., «haya»);
también puede tener más de una pronunciación. Un homónimo es una cadena de caracteres que tiene
más de un significado, pero una única pronunciación (p.ej., «planta»). El homófono se refiere a
cadenas de caracteres diferentes, pero que se pronuncian igual (p.ej., «vaca» y «baca»). Los homó-
fonos no constituyen ningún problema en la recuperación de información (aunque lo serán si llega a
ser posible la interrogación oral de las bases de datos), pero los homógrafos (incluyendo los
homónimos) pueden plantear dificultades.
Afortunadamente la homografía es menos problemática de lo que puede parecer a simple vista. Los
primeros trabajos sobre recuperación de información se ocuparon en más de una ocasión sobre ello. El
ejemplo clásico era el de «venetian blinds» (persianas), que podía dar lugar a la recuperación de
documentos sobre ciegos venecianos (blind Venetians). Aunque ingenioso, es algo absurdo. La
homografía es un problema sobre todo en el caso de los términos simples. Por ejemplo, «diafragma»
podría recuperar documentos sobre músculo diafragmático, sobre diafragma anticonceptivo o sobre
diafragma fotográfico. Pero en la recuperación de información raramente se manejan palabras
aisladas.
La posible ambigüedad se reduce cuando el tesauro trata de un campo temático limitado. No es
necesario explicar el término «diafragma» cuando el tesauro se refiera a fotografía. Cuando pueda
darse esa ambigüedad, se resolverá con un calificador entre paréntesis:

TANQUES (CONTENEDORES)
TANQUES (VEHÍCULOS)

Los calificadores pueden ser considerados como notas de aplicación en miniatura; sin embargo,
el calificador forma parte del descriptor, mientras que una verdadera nota de aplicación está separada
de él y va precedida de la abreviatura NA:

ROMANCE GÓTICO
NA Tipo de novela, popular a finales del siglo dieciocho y principios del
diecinueve, en el que los elementos principales son la violencia, el
horror y lo sobrenatural. El escenario suele ser un castillo o una abadía
gótica en ruinas.
10

No todos los descriptores necesitan una nota de aplicación, sino sólo aquellos cuyo alcance puede
ser poco claro para el usuario. Sería el caso de los términos poco usuales, incluyendo los términos
extranjeros, los términos muy recientes, y los términos que son utilizados de un modo diferente al
común.
Una nota de aplicación no tiene necesidad de ser una verdadera definición, sino una mera
indicación de cómo debe ser usado un término. Barhydt y Schmidt (1968) establecen cuatro usos
diferentes de las notas de aplicación:

1. Limitación positiva del alcance de un término:

REEDUCACIÓN PROFESIONAL
Formación para un cambio en la ocupación

Este tipo de nota limita el alcance del término y lo distingue de otros términos relacionados.

2. Limitación negativa:

LICENCIA
Excluye las habilitaciones escolares y los certificados docentes

Este tipo de nota no sólo excluye, sino que además puede dirigir al usuario a conceptos en los que
pudo haber pensado al buscar en el tesauro el término LICENCIA. Lo anterior podría ser más
explícito:

Excluye aspectos cubiertos por el descriptor HABILITACIONES ESCOLARES y


CERTIFICADOS DOCENTES.

3. Definición verdadera:

ERROR ESPACIAL
Tendencia a ser influido por la posición espacial del estímulo en relación al observador.

4. Combinación de definición y limitación positiva

PLAYBACK
De un registro sonoro o visual que le permite a una persona evaluar o reaccionar ante el
resultado de su propio registro.

Algunos tesauros tienen un pequeño número de términos generales que sólo deben ser usados en
casos extremos. Estos términos pueden llevar una nota de aplicación del siguiente tipo:
REVESTIMIENTOS
NA Usado sólo en discusiones generales sobre teoría de revestimientos donde no se hace
referencia a ninguna configuración determinada. En todos los demás casos, se
recomiendan los términos específicos como REVESTIMIENTOS
CILÍNDRICOS, REVESTIMIENTOS HEMISFÉRICOS, REVESTIMIENTOS
REFORZADOS.

El contexto en el que aparece un término en un tesauro también reduce la ambigüedad y la


necesidad de calificadores o notas de aplicación. Por ejemplo, si el término TANQUES aparece
relacionado con el genérico ARMAS, el propio contexto aclara su significado.
11
Capítulo XI
Presentación del tesauro

Si un descriptor tiene todos los elementos previamente identificados, la entrada del tesauro se
asemejará a lo siguiente:

INSTRUMENTOS INDICADORES DE POSICIÓN


NA Instrumentos utilizados para la localización de aviones, barcos, y otros objetos en
relación a un punto o puntos de referencia específicos.
UP Indicadores de posición
TG INSTRUMENTOS
TE INDICADOR PANORÁMICO
INDICADORES DE POSICIÓN DEL BLANCO
INDICADORES DE POSICIÓN TERRESTRE
RADIOCOMPÁS
SEXTANTES
TR DETECCION
RASTREO

No todas las entradas tendrán todos los elementos. La mayoría de los términos tendrán un TG, y
muchos tendrán uno o más TE. La existencia de otras relaciones será menos frecuente. En el ejemplo
aparecen los elementos en el orden que suele recomendarse en las normas; y dentro de cada relación
(TG, TE, TR) los términos están ordenados alfabéticamente.
La presentación alfabética de los términos de un tesauro bien construido debe reflejar
correctamente la clasificación jerárquica. Sin embargo, la disposición alfabética tiene limitaciones: es
difícil proporcionar un panorama completo de todos los términos en una jerarquía larga o en una
categoría amplia de materias. Para mostrar un panorama completo, normalmente la presentación
alfabética va acompañada de otros tipos de presentaciones. El UNBIS Thesaurus (1981), elaborado
por la Dag Hammarskjld Library de Naciones Unidas, puede servir para ilustrar estas presentaciones
complementarias. En dicho tesauro existen dos tipos de entradas:

Esta estructura es bastante convencional excepto en que:

- Se indica la categoría en la que está incluida el descriptor (como 12.01.00):


- La abreviatura TT (en castellano CS) precede al término «cabecera de serie» de la jerarquía a la que
pertenece el descriptor. Normalmente cada descriptor irá acompañado del término inmediatamente
superior (BT) y el TF. Para el término MANPOWER, el BT y TT son el mismo (el término cabecera
de serie de la jerarquía es el término inmediatamente superior a MANPOWER).
La figura 13 muestra un fragmento de una página de la lista jerárquica de términos del UNBIS
Thesaurus. Debajo de cada gran categoría temática (en este caso la primera de la lista, 01.01.00)
aparecen todos los términos en orden alfabético, con sus notas de aplicación y relaciones use.
12
La figura 14 contiene un ejemplo de lista jerárquica. Cada término cabecera de serie está
ordenado alfabéticamente y debajo de cada uno aparece toda la jerarquía, con los distintos niveles
sangrados. La parte alfabética sirve como punto de entrada a las demás partes, ya que cada descriptor
va acompañado del término cabecera de serie y el código de la categoría a la que pertenece.
La figura 15 ilustra una lista permutada de palabras de tipo KWOC (keyword out of context).
Este tipo de lista es útil porque muestra todas aquellas palabras que forman parte de los descriptores,
independientemente de su posición en ellos.

Presentación gráfica

En un tesauro convencional, la parte alfabética es la más importante y las demás son complementarias de
ella. Otra forma de presentación de un tesauro es la gráfica, que aunque popular en Europa no lo es tanto en
Estados Unidos. En la figura 16 (ver al final del documento) aparece una página de un hipotético tesauro. En él
se presentan de forma gráfica, en lo que se llama diagrama de flechas, los términos de la jerarquía cámaras, ya
vista en el capitulo 3. El término más general de la jerarquía (CÁMARAS) aparece en el centro. Siguiendo las
flechas podemos identificar los distintos niveles jerárquicos. Se ve fácilmente que CÁMARAS tiene cuatro
términos específicos; que uno de ellos, CÁMARAS FOTOGRÁFICAS, tiene a su vez cuatro términos
específicos: y así sucesivamente. De forma inversa, CÁMARAS DE 35 MM es una subdivisión de CÁMARAS
MINIATURA, que es una subdivisión de CÁMARAS FOTOGRÁFICAS y ésta lo es de CAMARAS, que es el
término superior. Varios términos de la estructura están unidos a otras estructuras (p. ej., CÁMARAS
CINEMATOGRÁFICAS con CINEMATOGRAFíA), de igual modo que en un atlas donde se remite de un
mapa a otro. Por eso, a este tipo de estructura se le llama muchas veces mapa terminológico.

01. CIVIL SUPREMACY OVER THE MILITARY


POLITICAL AFFAIRS USE: CIVIL-MILITARY RELATIONS
CIVIL WAR
01.01.00 CIVIL-MILITARY RELATIONS
POLITICAL CONDITIONS, CLASS STRUGGLE
INSTITUTIONS, MOVEMENTS COALMON GOVERNMENTS
COMMISSIONS OF INQUIRY
AERIAL HIJACKING SN: Large-scale enterprise which includes
USE: HIJACKING OFAIRCRAFT collectivized agriculture, industry, social
ALLEGIANCE services and local government functions
ANTICOMMUNIST MOVEMENTS COMMUNISM
ASSASSINATION COMMUNIST PARTIES
AUTARCHY COMMUNIST REVISIONISM
AUTHORITARIANISM COMMUNIST STATE
SN: A political style characterized by SN: Use for theoretical works on the future
obedience of subordinate to superior, communist state. Do not confuse with
reliance on threats of punishment and centrally planned economics
version to consultation and persuasion COMMUNIST STRATEGY
AUTHORITY SN: Poilitical strategy
BILL DRAFRING
BLACK POWER
BUREAUCRACY
CABINET OFFICERS
CABINETSYSTEM
USE: PARLIAMENTARY GOVERNMENT
CAPITALISM
CIVIL DISOBEDIENCE
SN: Refusal to obey laws regarded as morally
unjust, ordinarily by nonviolent resistance

Figura 13. Ejemplo de las listas de categorías del UNBIS Thesaurus. New York, United Nations, 1981
(Publicación Nº E.81.I.17). Reproducido con autorización.
13

CRIMINAL JUSTICE ...CINEMA


.CORRECTIONAL SYSTEMS ...DANCE
..COMMUNITY BASED CORRECTIONS ...OPERA
..JUVENILE CORRECTIONS ...THEATRE
..JUVENILE DETENTION HOMES ...DRAMA
..PARDON ....RADIO PLAYS
..PAROLE ..VISUAL ARTS
..PRISONLABOUR ... FINE ARTS
..PRISONS ....ARCHITECTURE
... REFORMATORIES .....ARCHITECTURAL ACOUSTICS
.CRIMINAL PROCEDURE .....DOMESTIC ARCHITECTURE
..INDUCTMENTS .....INDUSTRIAL ARCHITECTUPE
..PRELIMINARY EXAMINATIONS .....MECHANICAL DRAWING
..PROSECUTION .....MODERNARCHITECTURE
..SEARCHES AND SEIZURES ....MURAL PAINTING AND DECORATION
.LAW ENFORCEMENT ....PAINTING
..NARCOTICS LAW ENFORCEMENT .....PORTRAITS
....PICTURES
CROPS ....PLASTIC ARTS
.FIELD CROPS ...GRAPHIC ARTS
.FORAGE CROPS ....COMMERCIAL ART
.TROPICAL CROPS ...REPRODUCTIVE ARTS
....PHOTOGRAPHY
CULTIVATION SYSTEMS .....AERIAL PHOTOGRAPHY
.CROP DIVERSIFICATION .....COLOUR PHOTOGRAPHY
.CROP ROTATION .....LUNAR PHOTOGRAPHY
.DRY FARMING .....MICROPHOTOGRAPHY
.IRRIGATION FARMING ....PRINTING
.NUCLEAR AGRICULTURE .....LITHOGRAPHY
.ORGANIC FARMING ....LITERATURE
.SHIFTING CULTIVATION ..AFRICAN LITERATURE
..AMERICAN LITERATURE
CULTURAL PROPERTY ... AMERICAN POETRY
.ART WORKS ..ARABIC LITERATURE
.HISTORIC SITES AND MONUMENTS ..ASIAN LITERATURE
..NUBIAN HISTORIC SITES AND ...CHINESE LITERATURE
MONUMENTS ...INDIAN LITERATURE
...JAPANESE LITERATURE
CULTURE ...PAKISTANI LITERATURE
.ART AND LITERATURE ..AUSTRALIAN LITERATURE
.ART AND SCIENCE ..BLACK LITERATURE
.ART AND SOCIETY ..CATHOLIC LITERATURE
.ART AND STATE ..CHILDREN'S LITERATURE
.ARTS ..ENGLISH LITERATURE
..MUSIC ..ENGLISH LITERATURE
... FOLK MUSIC
.... FOLK SONGS
..PERFORMING ARTS

Figura 14. Parte de una página de la lista jerárquica del UNBIS Thesaurus. New York, United Nations, 1981.
(Publicación Nº E.81.I.17). Reproducido con autorización.
14
13.02.00 NUCLEAR ACCIDENTS
10.04.00 RADIATIONACCIDENTS
06.03.00 RAILWAY ACCIDENTS
06.03.00 TRAFFIC ACCIDENTS

ACCOMMODATIONS
18.00.00 ACCOMMODATIONS

ACCOUNT
18 00.00 SPECIAL ACCOUNT

ACCOUNT
05.02.00 ACCOUNTING
02.09.00 ACCOUNTING AND REPORTING
02.02.00 FLOW OF FUNDS ACCOUNTIN G
02.06.01 GOVERNMENT ACCOUNTING
05.02.00 INCOME ACCOUNTING
02.06.02 TAX ACCOUNTING

ACCOUNTS
1800.00 ACCOUNTS...
18.00.00 ACCOUNTS OF EXECUTIN O AGENCIES
05.02.00 ACCOUNTS RECEIVABLE
02.02.00 NATIONAL ACCOUNTS
14.05.01 SOCIAL ACCOUNTS

ACCULTYURATION
14.05.03 ACCULTURATION

ACETYLENE
05 04.00 ACETYLENE

ACHIEVEMENT
18.00.00 ACHIEVEMENT INDICATORS
11.01.00 ACHIEVEMENT MOTIVATION

ACID
03.04.00 ACID RAIN

ACOUSTIC
05.05.00 ACOUSTIC ENGINEERING

ACOUSTICS
09.02.00 ARCHITECTURAL ACOUSTICS
16.04.00 UNDERWATFR ACOUSTICS

Figura 15. Indice KOWC del UNBIS Thesaurus. New York, United Nations, 1981 (Pubblicación Nº E.81.I.17).
Repoducido con autorización.

También es necesario contar con un índice alfabético de esos mapas, como el que se presenta en la
figura 17. Éste es algo más que un índice, ya que incluye todos los elementos que aparecen en un
tesauro.
A lo largo del tiempo se han propuesto varias formas de presentaciones gráficas. En las figuras 18-
21 (ver al final del documento) aparecen cuatro formatos diferentes.
15
El TDCK Circular Thesaurus S3ystem (1963), mostrado en la figura 18, fue uno de los primeros
tesauros y el primero de su tipo. Los términos están dispuestos dentro de círculos concéntricos,
representando cada uno de ellos un nivel de jerarquía, con el término superior (en esta figura,
PUBLICATIONS) en el centro. La primera edición del TDCK Circular Thesaurus distribuía de este
modo más de 10.000 términos. Según Rolling (1979), el tesauro todavía se actualiza regularmente.

BUCEO T473.g5 CÁMARAS PANORÁMICAS E417.b4


TR: Cámaras sumergibles E417 NA: Cámaras con un objetivo especial que gira
sobre su punto nodal trasero y
CÁMARAS E4l7.d5 proyecta una imagen del área explorada
TR: Fotografía R562 sobre una película curva
TG: Cámaras fotográficas
CÁMARAS CINEMATOGRÁFICAS E417.f4
TG: Cámaras de filmación CÁMARAS PARA FOTOGRAFÍA INSTANTÁNEA
TE:Cámaras cinematográficas sumergibles E417.b5
TR: Cinematografía R668 NA: Cámaras que permiten obtener una copia
terminada en el momento
CÁMARAS CINEMATOGRÁFICAS posterior a la exposición
SUMERGIBLES E417.g4 TG: Cámaras fotográficas
TO: Cámaras cinematográficas
Cámaras sumergibles CÁMARAS RÉFLEX E417.c3
TG: Cámaras fotográficas
CÁMARAS DE FILMACIÓN E417.e4 TE: Cámaras réflex de dos objetivos Cámaras
TG: Cámaras réflex de un objetivo
TE: Cámaras cinematográficas
Cámaras de televisión CÁMARAS RÉFLEX DE DOS OBJETIVOS E4
17.d2
UP: Cámaras TLR
CÁMARAS DE TELEVISIÓN E417.e3 TG: Cámaras réflex
NA: Cámaras que pueden emitir imágenes y
grabarlas en videocintas CÁMARAS RÉFLEX DE UN OBJETIVO E4 17.c2
TG: Cámaras de filmación UP: Cámaras SLR
TR: Televisión R685 TG: Cámaras réflex

CÁMARAS DE 35 mm. E417.a2 Cámaras SLR USE CÁMARAS RÉFLEX DE UN


TG: Cámaras miniatura OBJETIVO

CÁMARAS ESTEREOSCÓPICAS E417.c6 CÁMARAS SUMERGIBLES E417.e6


TG: Cámaras TG: Cámaras
TE: Cámaras cinematográficas sumergibles
CÁMARAS FOTOGRÁFICAS E417.c4 TR: BuceoT473
TG: Cámaras
TE: Cámaras miniatura Cámaras TLR USE CÁMARAS RÉFLEX DE DOS
Cámaras panorámicas OBJETIVOS
Cámaras para fotografía instantánea
Cámaras réflex CINEMATOGRAFÍA R668.d5
TR: Cámaras cinematográficas E417

CÁMARAS MINIATURA E417.b3 FOTOGRAFÍA R562. d5


TG: Cámaras fotográficas TR: Cámaras E417
TE: Cámaras de 35 mm
TELEVISIÓN R685.d5
TR: Cámaras de televisión E417

Figura 17. Lista alfabética complementaria a la presentación gráfica de la figura 16.Reproducido de


Directrices para el establecimiento y desarrollo de tesauros monolingües (Norma UNE 50-106/1990)
16

Las presentaciones gráficas del EURATOM Thesaurus (1966-1967), que explica Rolling
(1971), posiblemente son más conocidas. Este tesauro incluye presentaciones gráfica y alfabética. Esta
última no presenta ni referencias cruzadas ni relaciones jerárquicas. La presentación gráfica utilizada
en la primera edición (figura 19) consiste en un diagrama de flechas. Las relaciones jerárquicas y
asociativas están representadas, dentro de cada grupo de palabras clave, mediante flechas. Éstas
sustituyen a las referencias cruzadas que aparecen en un tesauro convencional. Algunas flechas envían
a palabras clave relacionadas de otros gráficos. Por ejemplo, NEUTRONS está relacionada con
NEUTRON FLUX, que pertenece al gráfico 82. La dirección de las flechas va del nivel más genérico
al más específico; las palabras clave relacionadas pertenecientes al mismo nivel genérico están unidas
con flechas de dos direcciones. En la Segunda edición del tesauro se introdujo una modificación en
esta disposición (figura 20). En ella, los términos relacionados Semánticamente se agrupan en
conjuntos (campos) alrededor de las palabras clave, que aparecen en mayúsculas. Los términos
aceptados que no son palabras clave (sinónimos y términos más específicos, equivalentes a los envíos
use de un tesauro convencional) están en minúsculas, y las palabras prohibidas están en cursiva. La
diferencia entre esos dos tipos de términos es que, los términos aceptados pueden utilizarse en la
indización y la recuperación, mientras que los términos prohibidos no. Los envíos ver también y TR
de un tesauro convencional se sustituyen en los diagramas de flechas por uniones, indicando la fuerza
de la unión (la intensidad de la «relación semántica») mediante la fuerza del trazado de la línea. En el
margen de cada diagrama se indican los gráficos relacionados. Por ejemplo, DEUTERON BEAMS
está conectado con DEUTERIUM, que aparece en el gráfico 20, relativo a radioisótopos. Según
Colbach (1970), estas estructuras «eliminan la necesidad de frecuentes referencias cruzadas y NA que
definan la cobertura conceptual de las palabras clave, ya que el alcance de cada una queda definida
por los términos que le rodean que no son palabras clave y limitado por las palabras clave vecinas»
(pp. 587-588).
Finalmente, la figura 21 muestra otra forma de presentación, tomada del Metallurgy Thesaurus
(1974), tesauro trilingüe del campo de la metalurgia. Este tesauro es semejante al utilizado por el
Laboratorio Francés de Investigación en Carreteras (Van Dijk, 1966). En ambos, se puede superponer
una transparencia para mostrar las equivalencias lingüísticas en varios idiomas.

La presentación gráfica es efectiva en cualquier forma de comunicación. En el contexto de un


tesauro, al igual que en el esquema de clasificación por facetas, aproxima físicamente los términos
relacionados y permite, al indizar o ver de forma rápida el panorama completo de esas asociaciones.
La alfabética no lo permite, y para tener una visión general tenemos que ir atrás y adelante en función
de los envíos entre los términos relacionados. Sin embargo, las jerarquías muy largas, con muchas
relaciones y niveles, son difíciles de presentar de forma gráfica y además ocupan mucho espacio.
Otro tesauro elaborado por las Naciones Unidas, el SPINES Thesaurus (1976), tiene algunas
características especiales. Las figuras 22 y 23 (ver al final del documento) muestran la lista alfabética
y la presentación gráfica, respectivamente. La parte alfabética identifica explícitamente todos los
niveles de BT y NT de cada descriptor y proporciona también las notas de aplicación, RT y envíos
use. Como se comenta en el capítulo 9, se distingue entre los envíos use y see (ver). Estos últimos
permiten elegir los descriptores que sustituyan al no descriptor (término de entrada).
La presentación gráfica utiliza polígonos, subpoligonos y sub-subpolígonos, para tratar de
indicar claramente los distintos niveles jerárquicos. Los polígonos relacionados están unidos por una
«relación asociativa», un tipo de relación TR. Una página completa de esta presentación gráfica puede
incluir varios polígonos interrelacionados, aunque el ejemplo de la figura 23 sólo muestra un polígono
completo. Este tipo de presentación gráfica resulta más confusa que útil.

El tesauro con facetas

Las presentaciones complementarias alfabética y gráfica de las figuras 16 y 17 representan un


intento de combinar las ventajas del tesauro convencional y las del esquema de clasificación
17
jerárquica. Otro intento en ese sentido es el del tesauro con facetas, que combina el tesauro
alfabético con un esquema jerárquico con facetas.
En la figura 24 se muestran algunas entradas de un hipotético tesauro con facetas Las dos
partes se complementan completamente entre sí. La parte con facetas incluye la relación jerárquica (la
estructura TG/TE) y el resto de las relaciones aparecen en la otra parte. Esta última da la notación de
cada término para que el usuario pueda ir a la parte con facetas y ver allí la correspondiente relación
jerárquica. En la clasificación por facetas, cada término aparece solamente una vez; sin embargo, si un
término pertenece a más de una jerarquía, en el tesauro aparecen las relaciones secundarias, mediante
la abreviatura TG(A), que significa «término genérico adicional». El tesauro con facetas presenta una
ventaja evidente sobre cualquier otro tipo de tesauro: puede utilizarse para la ordenación de libros en
las estanterías de una biblioteca especializada, además de para la indización de documentos en una
base de datos. Por otra parte, ambas cosas son plenamente compatibles.

El primer tesauro con facetas se debe a Aitchison et al. (1969). Éste contenía 16.000 términos
aprobados y 7.000 «términos de entrada» y en él la clasificación por facetas (figura 25) y el tesauro
(figura 26) (ver al final del documento) estaban completamente integrados. Ambas partes parecen
bastante convencionales. Los envíos use controlan los sinónimos y proporcionan entradas de términos
específicos que no se utilizan en la indización o la recuperación. También contiene los recíprocos UF.
Junto a cada descriptor del tesauro aparece su número de clase.

TELEVISION CAMERA TUBES tiene el código MCE. En los esquemas de clasificación, la


disposición en facetas muestra la jerarquía completa de los términos genéricos (CATHODE RAY
TUBES, ELECTRON BEAM DEFLECTION TUBES, ELECTRON TUBES) y de los términos
específicos (TELEVISION COLOR CAMERA TUBES). También muestra los términos que están
más estrechamente relacionados, es decir, términos de la misma categoría (p. ej., STORAGE TUBES,
IMAGE CONVERTER TUBES) y los términos secundarios a ellos. La ventaja sobre el tesauro
convencional es que se muestra de forma clara todas esas relaciones para cualquier término y
establece las relaciones correctas entre ellos.
La parte del tesauro del Thesaurofacet de Aitchison et al. también contiene algunas relaciones
TR y TG, pero sin duplicar ninguna información de la clasificación. Los términos relacionados
pertenecen a otras facetas. TELEVISION CAMERA TUBES aparece como relacionado con
PHOTOTUBES, PHOTOMULTIPLIERS, y TELEVISION CAMERAS. Ninguno de ellos pertenece
a la misma categoría que TELEVISION CAMERA TUBES y podría ser pasado por alto si se utilizara
sólo la parte con facetas.
Los términos relacionados que aparecen en la parte del tesauro no lo están jerárquicamente. Esta
parte contiene otras relaciones (p. ej., entre un todo y una parte o entre un objeto y sus propiedades).
Sin embargo, la parte del tesauro no contiene la misma relación TG mostrada en la estructura de
facetas. La parte con facetas sólo muestra la jerarquía principal, pero en la parte del tesauro aparecen
18
otras. En el caso de TELEVISION CAMERA TUBES, la jerarquía adicional, indicada con BT (A),
es la jerarquía de TELEVISION APPARATUS.

(Fig. 25)

Los términos específicos adicionales del tesauro son listados de forma parecida y se indican con
la abreviatura NT (A). Como ejemplo de esto, consideremos el término JETS. Este término aparece en
los esquemas con facetas del siguiente modo:

CWJ Jets
CWK Jet Streams
CWL Plumes
CWM Wall jets
CWO Couette flow
CWP Jet mixing
CWQ Propulsive jets

Ésta es la jerarquía primaria de JETS; los términos listados relativos a JETS se refieren todos a
corrientes dinámicas de fluidos. Pero existen otros tipos de jets que suponen uniones jerárquicas
adicionales y que son los que aparecen con NT (A) debajo de JETS:

JETS
NT(A) JETS (HOVERCRAFT)
PLASMA JETS

La utilización conjunta del esquema de clasificación y del tesauro permite contemplar todas las
«uniones jerárquicas múltiples» de los términos.
En el Thesaurofacet, la parte del tesauro hace la función del índice alfabético de materias que
normalmente tienen las clasificaciones por facetas convencionales. Además, la clasificación por
facetas reemplaza a la estructura jerárquica tradicional de un tesauro, mediante los envíos TG/TE. El
Thesaurofacet se beneficia de la meticulosidad del análisis por facetas, presentando de forma consis-
tente las relaciones más importantes entre los términos y proporcionando un estricto control de los
sinónimos. La estructura de facetas facilita la búsqueda genérica y la del tesauro hace posible el
acceso inmediato a un término específico y proporciona relaciones entre los términos que no aparecen
en la parte con facetas. Este tipo de tesauro puede ser utilizado tanto en un sistema precoordinado
(usando la síntesis notacional) como en uno postcoordinado.
Desde la publicación del Thesaurofacet han aparecido algunos tesauros basados en los mismos
principios y sólo varían en cuanto al grado de interdependencia entre los elementos de las partes con
facetas y alfabética. Un ejemplo es el Unesco Thesaurus (1977) del que también es responsable Jean
Aitchison, autor del primer tesauro con facetas.
El ROOT Thesaurus (1981) posiblemente sea el tesauro más detallado de todos los que combinan
una clasificación por facetas y una presentación alfabética. En las figuras 27 y 28 (ver al final del
documento) se pueden ver ejemplos de ambas estructuras. En la figura 27 se indican, clara y
explícitamente, las facetas en las que se divide una materia («By property», «By additive», etcétera).
El tesauro utiliza los siguientes signos especiales (p. 102):
= un sinónimo no preferente
* < un término genérico adicional de otra división del tesauro (p. ej. GASOLINE
ADDITIVES puede considerarse como específico de TJP, ADDITIVES, y como una
subdivisión de GASOLINE)

*> un término específico adicional de otra división del tesauro

*_ un término relacionado adicional de otra división del tesauro


19
La sección alfabética del ROOT Thesaurus (figura 28) sólo proporciona un nivel de jerarquía.
Se utilizan los siguientes signos:

= un sinónimo no preferente

< un término genérico en la misma división del tesauro (p.ej., LIGNITE aparece como
específico de COAL)

> un término específico en la misma división del tesauro (p.ej., FUEL OIL es un específico
de MINERAL OILS)

- un término relacionado en la misma división del tesauro (p.ej., LIQUID FUEL


APPLIANCES está relacionado con LIQUID FUELS)

* < un término genérico en otra división del tesauro

*> un término específico en otra división del tesauro

*_ un término relacionado en otra división del tesauro

Los no descriptores pueden ser tratados de dos modos. El primer ejemplo,

HIGH-GRADE GASOLINE
GASOLINE JOK

indica que la primera materia debe ser indizada con el término que hay tras la flecha. El segundo
ejemplo,

** HYDROGEN GENERATORS JQK.GH


GAS GENERATORS
+ HYDROGEN

significa un «término sintetizado». El término HYDROGEN GENERATORS no debe ser usado; en


su lugar, este concepto debe ser indizado con GAS GENERATORS e HYDROGEN (obsérvese que la
entrada HYDROGEN muestra que hay que utilizar este término + GAS GENERATORS para
representar HYDROGEN GENERATORS). Los símbolos especiales utilizados en lugar de TG, TE,
TR y use hace que la estructura sea independiente del lenguaje.
El conjunto de la estructura es ingenioso y su elaboración cuidadosa. Sin embargo, se puede plantear
la duda de si realmente es necesaria una estructura tan sofisticada para la mayoría de las aplicaciones
en la recuperación de información. Esto tiene poco que ver con el lenguaje natural, que se estudia en
el capítulo 17.

Capítulo XVI
Evaluación de los tesauros

Un tesauro puede evaluarse superficialmente mediante un simple examen. Por ejemplo, pueden
valorarse ciertos aspectos globales: ¿Contiene una adecuada introducción que informe de su ámbito de
aplicación y que explique sus características distintivas? ¿Incluye presentaciones alternativas (al
menos secciones alfabética y jerárquica complementarias)? A un nivel superior, ¿son correctas las
relaciones TGITE y TR? ¿Los términos poco usuales o ambiguos son aclarados por su contexto, con
calificadores, o mediante notas de aplicación? También puede valorarse que todas las relaciones
tengan sus recíprocos, aunque utilizando el ordenador es improbable que falten.
20
Un experto en la materia, además, podría evaluar el tesauro comprobando si distintas materias
están representadas en él y silos términos que las representan son suficientemente específicos.
También podría hacerse esta comprobación sobre una muestra aleatoria de artículos o resúmenes,
determinando si las palabras clave aparecen en el tesauro.
Es posible comprobar si el tesauro cumple las normas internacionales sobre las convenciones
singular/plural, formas de las palabras, entradas directas, y otros aspectos de consistencia. También
pueden considerarse aspectos estéticos de composición y tipografía.
Además de lo anterior se han propuesto y aplicado varias pruebas estadísticas para la evaluación
de los tesauros. Por ejemplo, Kochen y Tagliacozzo (1968) evaluaron varios vocabularios controlados
mediante una razón de relación y una medida de accesibilidad. La razón de relación es la razón entre
términos con referencias cruzadas (es decir, términos unidos al menos a otro término, p.ej., con TG,
TE o TR) y el número total de términos del vocabulario. La medida de accesibilidad es la media de
reenvíos a los descriptores del vocabulario. Por ejemplo, una medida de accesibilidad de 2,923 indica
que cada término del vocabulario tiene una media de reenvíos de aproximadamente otros tres
términos. Estas medidas indican la amplitud de las uniones (es decir, referencias cruzadas) entre los
términos de un vocabulario. Altas cifras probablemente corresponderán a un tesauro más útil.
Estos tipos de medidas, esencialmente cuantitativas, han sido desarrolladas por el Bureau Marcel
Van Dijk (1976). La razón de relación es sustituida por la de conexión que es definida como (b - a)/b,
donde a es el número de descriptores del vocabulario que aparecen aislados (es decir, no unidos a
otros) y b es el número total de descriptores del vocabulario. Cuanto más cerca esté de la unidad,
mejor será el tesauro. La medida de accesibilidad de Kochen y Tagliacozzo se convierte en una razón
de enriquecimiento. El valor recomendado está entre 2 y 5 e indica que demasiados reenvíos por
descriptor (más de 5) serían un estorbo más que una ayuda.
Se han propuesto nuevas medidas, como:

1. La razón de equivalencia, que es la razón entre el número de no descriptores y descriptores,


realmente constituye una medida de la riqueza del vocabulario de entrada. Los autores del informe del
Bureau Marcel Van Dijk recomiendan que este valor sea mayor a 1, es decir, que hayan más términos
de entrada que descriptores.
2. La razón de reciprocidad, que es el grado en que las relaciones TG, TE y TR tienen reenvíos
recíprocos.
3. Definición, representada por la ecuación (b - a)/b, donde a es el número de descriptores que
posiblemente son ambiguos porque no tienen notas de aplicación, calificadores, o relaciones
jerárquicas que los definan, y b es el número total de descriptores del vocabulario.
4. Flexibilidad, que es la proporción de palabras en los descriptores compuestos, que aparecen en el
vocabulario como descriptores o no descriptores. Se recomienda un valor de 0,6 o mayor.
5. Nivel de precoordinación, que es el número medio de palabras por descriptor. Para los tesauros
ingleses y franceses se recomienda un valor entre 1,5-2,0 y de 1,1-1,2 para los tesauros alemanes∗.
6. El tamaño de los grupos de términos (es decir, los grupos que forman la lista sistemática del
tesauro). Se recomienda de 30 a 40 términos por grupo.

Algunas de estas medidas son ingeniosas, pero otras resultan triviales (razón de reciprocidad) e
incluso arbitrarias (la flexibilidad). Los valores recomendados son bastante arbitrarios. Se
establecieron a partir de algunos tesauros considerados como «buenos» y a los que se aplicaron las
distintas medidas.
Desde luego, es imposible evaluar un tesauro si no se hace en condiciones de uso real. La
prueba definitiva nos la dará la existencia de términos suficientemente específicos para
representar adecuadamente la materia de los documentos y las peticiones, el grado de
ambigüedad sintáctica en la base de datos y la utilidad del tesauro para encontrar todos los
términos necesarios para realizar una búsqueda concreta.


Para los tesauros españoles el valor recomendado también es de 1,5-2,0 (N. del T.)

También podría gustarte