Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lancaster
Lancaster
--
Valencia : Universitat de Valencia, 1995. -- Cap. I, II, III.
Capítulo I
¿Por qué el control del vocabulario?
∗
Aunque thesaurus se utiliza universalmente y conceptualmente es más preciso que tesauro, empleamos este último término debido
a su uso general, tras la publicación de la norma UNE 50-106-90, en los textos en castellano sobre el tema (N. del T.)
Las fases de la salida del sistema (output) son muy similares a las que se dan en la entrada.
Los usuarios realizan diferentes peticiones al centro de documentación y los documentalistas
preparan estrategias de búsqueda para esas peticiones. Resulta oportuno considerar también en
la preparación de las estrategias de búsqueda las fases de análisis conceptual y de traducción. La
primera fase implica un análisis de la petición para determinar lo que realmente busca el usuario
y la segunda consiste en la traducción del análisis conceptual al vocabulario del sistema. El
análisis conceptual de la petición, traducido al lenguaje del sistema, es la estrategia de
búsqueda, que puede considerarse como una representación de la petición, del mismo modo que
el registro de indización puede contemplarse como una representación del documento. La única
diferencia es que en aquélla normalmente existe «lógica» (es decir, se especifican un cierto
número de relaciones lógicas entre los términos), mientras que en el registro de indización las
relaciones lógicas entre los términos estarán más implícitas que explícitas.
Una vez terminada la estrategia de búsqueda se «compara» de algún modo con las
representaciones de los documentos de la base de datos. Esto puede hacerse mediante un fichero
manual, índices impresos, microfilm, cinta magnética o disco. En la actualidad, la búsqueda
puede hacerse online, desde un terminal en una biblioteca, aunque la base de datos esté a cientos
o miles de kilómetros de distancia. Las representaciones de los documentos que se ajustan a la
estrategia de búsqueda, es decir, que satisfacen los requerimientos lógicos de la búsqueda, son
recuperadas de la base de datos y ofrecidas al usuario de forma impresa o por pantalla. El
proceso acaba cuando el usuario queda satisfecho con los resultados de la búsqueda. En algunos
casos esto puede consistir en el convencimiento de que no hay nada en la base de datos que se
ajuste a sus necesidades.
La figura 1 indica con claridad el papel central que juega el vocabulario en un sistema de
recuperación de la información. Los indizadores tienen que utilizar los términos de este
vocabulario para representar las materias de los documentos. En las estrategias de búsqueda se
utilizarán los mismos términos para la interrogación a la base de datos. Podemos hacernos una
idea de lo que podría ocurrir si el sistema funcionara sin control del vocabulario examinando la
lista de términos de la figura 2. Puede considerarse que todos ellos (y la lista no es completa)
tienen algo que ver con el proceso de «unión» (de materiales como los metales y los plásticos).
La lista contiene una amplia variedad de tipos de términos: algunos (como conexión, soldadura
fuerte, encolado) representan procesos de unión; otros (como planchas y hojas) representan
cosas que pueden ser unidas; otros representan tipos de uniones (aglomerados, soldadura); y
otros se refieren a sustancias (aleaciones, colas) o instrumentos (soldadores, varillas soldadoras),
propiedades de materiales o uniones (fragilidad, resistencia) o procesos que pueden afectar a las
uniones (corrosión, deterioro, etc.).
articulaciones (anatómicas)
El mayor problema posiblemente sea que en una lista alfabética los términos con
significados cercanos aparecerán separados. Aunque sea improbable que alguien plantee una
búsqueda sobre cada aspecto del tema unión, sí es posible que alguien quiera recuperar toda la
información relativa a algún tipo de unión, como unión por adherencia. El orden alfabético va a
separar muchos términos relacionados con esa materia: adhesivos, aglomerantes, cementos,
colas, gomas, etc. Sería útil para el que busca información que todos los términos con
significados relacionados estuvieran unidos de algún modo, como en el siguiente ejemplo:
En el diagrama se puede observar que están representados dos tipos de relaciones. Uno es
la relación permanente entre una cosa y tipos de esa cosa (entre un género y sus especies):
fractura y rotura son siempre tipos de averías. El otro tipo de relación es más transitorio; por
ejemplo, el proceso de avería puede estar inducido por otros procesos como corrosión y fatiga e
influido por propiedades físicas como resistencia y tenacidad. A la relación genérica permanente
a veces se la conoce como relación paradigmática o relación a priori, mientras que a la relación
más transitoria (la avería puede estar ocasionada por la corrosión, pero no siempre se debe a ella
ni la corrosión conduce siempre a una avería) en ocasiones se la llama relación sintagmática o a
posteriori.
Los ejemplos vistos, basados en los términos de la figura 2, demuestran claramente los
objetivos del control del vocabulario en un sistema de recuperación de la información. Estos
objetivos pueden resumirse en:
La indización tiende a ser más consistente cuando el vocabulario utilizado está controlado.
Será más probable que los indizadores estén de acuerdo sobre los términos necesarios para
representar una determinada materia, si éstos son seleccionados de una lista previa que si
pueden utilizar cualquier término. Lo mismo ocurre en el proceso de búsqueda: será más fácil
identificar los términos apropiados a una necesidad de información si son seleccionados de una
lista determinada. Por lo tanto, el vocabulario controlado facilita la coincidencia entre el
lenguaje de los indizadores y el de los usuarios que hacen la búsqueda.
Un vocabulario controlado no necesita más que un limitado conjunto de términos que
puedan ser utilizados por el indizador y el usuario. Sin embargo, normalmente los términos
están sujetos a algún tipo de estructura para que aquellos que tienen significados cercanos
aparezcan juntos o relacionados de alguna forma. Ello ayudará, tanto al indizador como al
usuario que hace la búsqueda, a poder seleccionar los términos más adecuados para representar
una determinada materia. Y, aún más importante, ayudará al usuario a identificar todos los tér-
minos necesarios para realizar una búsqueda amplia sobre alguna materia.
Capítulo II
Sistemas precoordinados y postcoordinados
Clasificaciones abiertas
Clasificaciones cerradas
Una vez recogidos los términos mediante alguno de los procedimientos vistos en el capitulo 4,
hay que organizarlos dentro de una estructura lógica. Supongamos que se está elaborando un tesauro
en el campo de la biblioteconomía, que los términos se han extraído de la Library and information
Science Abstracts, y que se han anotado en tarjetas. Una vez acabada la recogida (cuando se alcanza el
punto en que decrece la aparición de términos candidatos), se agrupan las tarjetas con términos
«semejantes». Por ejemplo, un conjunto de tarjetas se refiere a tipos de bibliotecas; otro se refiere a
tipos de materiales que manejan las bibliotecas, un tercero a los tipos de servicios que proporcionan
las bibliotecas; etcétera.
La figura 9 ilustra este proceso. La terminología sobre biblioteconomía aparece dividida según
una serie de aspectos o facetas. Unos conjuntos serán relativamente grandes si la faceta es amplia;
otros pueden ser bastante pequeños. De hecho puede ser necesario crear un pequeño conjunto de
contenido general para colocar aquellos términos que no encajen bien en ninguna de las facetas
principales.
Después de haber identificado de este modo las facetas, hay que organizar de forma jerárquica
cada una de ellas. Es imposible llegar a tener una estructura de tesauro adecuada sin haber elaborado
previamente un esquema de clasificación. La figura 10 muestra las jerarquías parciales de dos facetas
de biblioteconomía. Se trata de una verdadera clasificación de parte de la terminología sobre
biblioteconomía; la asociación de una notación con los términos no es un elemento esencial del
esquema de clasificación. La estructura clasificatoria es abierta, y los niveles están claramente
identificados mediante sangrados. Para establecer la estructura del tesauro a partir de los términos de
la figura 10 debemos ordenar los términos alfabéticamente y utilizar los reenvíos TG/TE debajo de
cada término para indicar las relaciones jerárquicas establecidas.
2
MICROFORMATOS (figura 11) muestra uno de sus específicos, MICROFICHA, pero no aparece
ULTRAMICROFICHA, que sólo es TE de MICROFICHA.
Es recomendable aplicar este procedimiento «un nivel arriba, un nivel abajo» en un tesauro
impreso, sobre todo para ahorrar espacio. Sin embargo, algunos tesauros no adoptan ese
procedimiento. En lugar de ello, listan todos los niveles de términos específicos debajo de cada
entrada, como en el siguiente ejemplo:
BIBLIOTECAS
TE BIBLIOTECAS ACADÉMICAS
BIBLIOTECAS ACADÉMICAS ESPECIALIZADAS
BIBLIOTECAS DE COLEGIOS UNIVERSITARIOS
BIBLIOTECAS ESCOLARES
BIBLIOTECAS DE ESCUELAS PRIMARIAS
BIBLIOTECAS DE ESCUELAS SECUNDARIAS
BIBLIOTECAS ESPECIALIZADAS
BIBLIOTECAS INDUSTRIALES
BIBLIOTECAS NACIONALES
BIBLIOTECAS PÚBLICAS
BIBLIOTECAS RURALES
BIBLIOTECAS UNIVERSITARIAS
BIBLIOTECAS URBANAS
Este tipo de presentación ocupa espacio y la mezcla de niveles jerárquicos da lugar a confusión.
Es más útil una presentación con los términos específicos de forma alfabética-sistemática:
4
BIBLIOTECAS
TE BIBLIOTECAS ACADÉMICAS
BIBLIOTECAS DE COLEGIOS UNIVERSITARIOS
BIBLIOTECAS UNIVERSITARIAS
BIBLIOTECAS ESCOLARES
BIBLIOTECAS DE ESCUELAS PRIMARIAS
BIBLIOTECAS DE ESCUELAS SECUNDARIAS
BIBLIOTECAS ESPECIALIZADAS
BIBLIOTECAS ACADÉMICAS ESPECIALIZADAS
BIBLIOTECAS INDUSTRIALES
BIBLIOTECAS NACIONALES
BIBLIOTECAS PÚBLICAS
BIBLIOTECAS RURALES
BIBLIOTECAS URBANAS
Este sistema también ocupa espacio, pero al menos revela los niveles de jerarquía a simple vista.
Un tesauro pensado sólo para el funcionamiento online, indudablemente no presentaría
problemas de espacio. En tal caso, tendría más sentido estructurar todos los niveles de la jerarquía
debajo de cada término, facilitando al usuario una ampliación de la consulta.
Las jerarquías de la figura 10 y las entradas del tesauro obtenidas a partir de ellas se basan en una
relación género/especies estricta. En general, la relación TG/TE debería ser siempre género/especies;
es decir, los términos específicos deben representar un «tipo» de término genérico. Si no es así,
probablemente no será un verdadero TE. Consideremos la siguiente entrada de un tesauro:
LANZAMIENTO
TE CATAPULTAS
LANZADORES DE COHETES
LANZADORES DE MISILES DIRIGIDOS
LANZADORES DE TORPEDOS
LANZAMIENTO SUBMARINO
Sólo el último término representa una verdadera especie (es decir, un tipo de lanzamiento); los
otros deberían ser agrupados bajo el término genérico DISPOSITIVOS DE LANZAMIENTO.
Un error que los estudiantes cometen en ocasiones es el confundir la relación cosa/tipo (la
verdadera relación TG/TE) con la relación cosa/aplicación o cosa/derivado: TARTAS DE
MANZANA no es un TE de MANZANAS, sino de TARTAS.
La mayoría de las veces, la relación todo/parte (partitiva) tampoco es una verdadera relación
TG/TE; es decir, RUEDAS DE BICICLETA es correcto como TE de RUEDAS pero no de
BICICLETAS. Sin embargo, en algunas áreas temáticas, la relación partitiva es tratada, por
convención, como si fuera una relación genérica. Los ejemplos más claros de esto son la anatomía y la
geografía. Los siguientes tipos de entradas pueden ser aceptables:
TEP PAREDES
SUELOS
TECHOS
TEJADOS
Aunque esto es aceptable, existen otras soluciones. Por ejemplo, estos términos, que son parte de
un conjunto, podrían agruparse bajo un TG diferente (p. ej., ELEMENTOS DE CONSTRUCCION).
La entrada anterior podría transformarse en:
CASAS
TE CASAS DE DOS PISOS
CASAS DE TRES PISOS
CASAS DE UN PISO
TR ELEMENTOS DE CONSTRUCCIÓN
Si se hace la distinción TEP/TEG, también debe hacerse la distinción en el nivel TG (p. ej.,
Casas de dos pisos-TGG Casas, Techos-TGP Casas)
Las directrices de la Unesco también consideran como válida la relación TG/TE «casos».
Puede aceptarse el siguiente tipo de entrada:
PRERRAFAELISTAS
TE DANTE GABRIEL ROSSETTI
WILLIAM HOLMAN HUNT
JOHN EVERETT MILLAIS
TUBERÍAS
6
TE TUBERÍAS CIRCULARES
TUBERÍAS DE PLÁSTICO
TUBERÍAS METÁLICAS
TUBERÍAS NO CIRCULARES
TUBERÍAS PARA AGUA
TUBERÍAS PARA VAPOR
Aquí son evidentes tres principios de división diferentes: forma, material y aplicación. En una
clasificación por facetas se podría agrupar a los términos según cada principio, que se indicaría
explícitamente:
TUBERÍAS
(por su forma)
TUBERÍAS CIRCULARES
TUBERÍAS NO CIRCULARES
(por material)
TUBERÍAS DE PLÁSTICO
TUBERÍAS METALICAS
(por aplicación)
TUBERÍAS PARA AGUA
TUBERÍAS PARA VAPOR
En una clasificación por facetas es necesario lo anterior, ya que hay que combinar las notaciones
en un determinado orden para poder expresar una entidad más compleja (p. ej., tuberías no circulares
de plástico para transportar agua), pero no es necesario en el caso de un tesauro ya que los términos
del mismo pueden ser asignados libremente a un documento sin importar la secuencia; un artículo que
trate sobre la materia del ejemplo anterior podría indizarse mediante TUBERÍAS PARA AGUA,
TUBERÍAS DE PLÁSTICO y TUBERÍAS NO CIRCULARES.
Sin embargo, en el caso de jerarquías muy amplias, puede ser conveniente ordenar los TE según
un principio de división:
JUGUETES
TE (por materiales)
JUGUETES DE GOMA
JUGUETES DE MADERA
JUGUETES DE METAL
JUGUETES DE PLASTICO
JUGUETES DE TELA
TE (por manejo)
JUGUETES DE IMPULSIÓN
JUGUETES DE TRACCIÓN
JUGUETES ELÉCTRICOS
JUGUETES MECÁNICOS
Este tipo de organización está admitida en las directrices de la Unesco, en las que al principio de
división establecido en el tesauro se le da el nombre de «indicador clasificatorio» o «indicador de
faceta».
7
Es improbable que las jerarquías de un tesauro convencional sean simétricas; unas serán amplias
y otras muy pequeñas. Incluso pueden haber «jerarquías» de un solo término. Por ejemplo, un tesauro
de biblioteconomía puede incluir términos como DETERIORO o EFICACIA, que no se ajustan a
ninguna de las jerarquías principales. En general, este último caso debe evitarse en lo posible. Es
preferible crear un término genérico artificial que permita agrupar a un conjunto de términos y que de
otro modo serían difíciles de organizar:
PROPIEDADES GENERALES
TE COLOR
DURABILIDAD
FORMA
TAMAÑO
La relación jerárquica está bastante bien definida y se pueden formular directrices precisas para
asegurar que la relación TG/TE se aplica correctamente. La relación asociativa, mucho menos clara,
se estudia en el capítulo 7.
Capítulo VII
Organización de los términos: la relación asociativa
BIBLIOTECAS ACADEMICAS
TG BIBLIOTECAS
TE BIBLIOTECAS DE COLEGIOS UNIVERSITARIOS
BIBLIOTECAS UNIVERSITARIAS
Las recomendaciones de la Unesco permiten este tipo de relación cuando los significados de los
términos de la misma jerarquía se solapan parcialmente o quedan poco claros por separado (por
ejemplo, BURROS como TR de MULAS y viceversa), pero aun así parece redundante.
La relación asociativa es sintagmática o a posteriori. En esta relación no es posible establecer
normas precisas, a diferencia de la relación jerárquica. Lo único que se puede precisar es que dos
términos cuyos significados están relacionados, pero que aparecen en diferentes jerarquías, son
candidatos a una relación TR.
Algunos autores han señalado la posibilidad de llegar a establecer los TR a través de un tipo de
juego asociativo semejante a la «asociación libre» utilizada en algunos tipos de tests psicológicos (p.
ej., Papier y Cortelyou, 1962), pero este procedimiento resulta innecesario y artificial.
La confección de tablas de coaparición de términos a partir de una base de datos, como se señala
en el capítulo 4, puede indicarnos qué términos están «relacionados» en un sentido asociativo. Si esto
no es posible, el autor del tesauro puede confiar en su sentido común y en su conocimiento de la
materia.
Los siguientes tipos de relaciones entre términos nos orientan sobre los casos en que se puede
establecer la relación TR.
y el inverso,
8
UNIONES
TR ADHESIVOS
FRACTURA
9
ver también AGRIETAMIENTO
FRACTURA QUEBRADIZA
FRAGILIDAD
FRAGILIDAD POR EL HIDRÓGENO
Por otra parte, lo habitual en los encabezamientos de materias, es que el reenvío se haga del
general al específico, pero raramente en sentido inverso. Así, probablemente encontraríamos el
reenvío UNIONES ver también SOLDADURA, pero no SOLDADURA ver también UNIONES. En
otras palabras, no se hace explícitamente recíproca la relación. A diferencia de un tesauro bien
estructurado, la lista de encabezamientos de materias no es una clasificación jerárquica estricta y no
podemos establecer ésta automáticamente a partir de una lista de encabezamientos de materias.
El tesauro del American Petroleum Institute (1982) es un caso excepcional que contiene tanto los
reenvíos ver también como los TR, aunque aquéllos tienen un uso más extenso que los últimos. La
relación ver también aparece aquí de forma más fortuita que la TR. Cuando a un documento se le
asigna el término A, automáticamente se le asigna también el término B («autorreferencia»), si B es
un TR de A. La autorreferencia de algunos ver también introduce un elemento de confusión.
Realmente, el reenvío ver también de este tesauro equivale a la relación asociativa. El reenvío TR se
utiliza en realidad para unir un término a una jerarquía diferente a la que él pertenece; aquí TR
significa más bien «término genérico adicional».
Capítulo X
Homografía y notas de aplicación
Un homógrafo consiste en una cadena de caracteres con más de un significado (p.ej., «haya»);
también puede tener más de una pronunciación. Un homónimo es una cadena de caracteres que tiene
más de un significado, pero una única pronunciación (p.ej., «planta»). El homófono se refiere a
cadenas de caracteres diferentes, pero que se pronuncian igual (p.ej., «vaca» y «baca»). Los homó-
fonos no constituyen ningún problema en la recuperación de información (aunque lo serán si llega a
ser posible la interrogación oral de las bases de datos), pero los homógrafos (incluyendo los
homónimos) pueden plantear dificultades.
Afortunadamente la homografía es menos problemática de lo que puede parecer a simple vista. Los
primeros trabajos sobre recuperación de información se ocuparon en más de una ocasión sobre ello. El
ejemplo clásico era el de «venetian blinds» (persianas), que podía dar lugar a la recuperación de
documentos sobre ciegos venecianos (blind Venetians). Aunque ingenioso, es algo absurdo. La
homografía es un problema sobre todo en el caso de los términos simples. Por ejemplo, «diafragma»
podría recuperar documentos sobre músculo diafragmático, sobre diafragma anticonceptivo o sobre
diafragma fotográfico. Pero en la recuperación de información raramente se manejan palabras
aisladas.
La posible ambigüedad se reduce cuando el tesauro trata de un campo temático limitado. No es
necesario explicar el término «diafragma» cuando el tesauro se refiera a fotografía. Cuando pueda
darse esa ambigüedad, se resolverá con un calificador entre paréntesis:
TANQUES (CONTENEDORES)
TANQUES (VEHÍCULOS)
Los calificadores pueden ser considerados como notas de aplicación en miniatura; sin embargo,
el calificador forma parte del descriptor, mientras que una verdadera nota de aplicación está separada
de él y va precedida de la abreviatura NA:
ROMANCE GÓTICO
NA Tipo de novela, popular a finales del siglo dieciocho y principios del
diecinueve, en el que los elementos principales son la violencia, el
horror y lo sobrenatural. El escenario suele ser un castillo o una abadía
gótica en ruinas.
10
No todos los descriptores necesitan una nota de aplicación, sino sólo aquellos cuyo alcance puede
ser poco claro para el usuario. Sería el caso de los términos poco usuales, incluyendo los términos
extranjeros, los términos muy recientes, y los términos que son utilizados de un modo diferente al
común.
Una nota de aplicación no tiene necesidad de ser una verdadera definición, sino una mera
indicación de cómo debe ser usado un término. Barhydt y Schmidt (1968) establecen cuatro usos
diferentes de las notas de aplicación:
REEDUCACIÓN PROFESIONAL
Formación para un cambio en la ocupación
Este tipo de nota limita el alcance del término y lo distingue de otros términos relacionados.
2. Limitación negativa:
LICENCIA
Excluye las habilitaciones escolares y los certificados docentes
Este tipo de nota no sólo excluye, sino que además puede dirigir al usuario a conceptos en los que
pudo haber pensado al buscar en el tesauro el término LICENCIA. Lo anterior podría ser más
explícito:
3. Definición verdadera:
ERROR ESPACIAL
Tendencia a ser influido por la posición espacial del estímulo en relación al observador.
PLAYBACK
De un registro sonoro o visual que le permite a una persona evaluar o reaccionar ante el
resultado de su propio registro.
Algunos tesauros tienen un pequeño número de términos generales que sólo deben ser usados en
casos extremos. Estos términos pueden llevar una nota de aplicación del siguiente tipo:
REVESTIMIENTOS
NA Usado sólo en discusiones generales sobre teoría de revestimientos donde no se hace
referencia a ninguna configuración determinada. En todos los demás casos, se
recomiendan los términos específicos como REVESTIMIENTOS
CILÍNDRICOS, REVESTIMIENTOS HEMISFÉRICOS, REVESTIMIENTOS
REFORZADOS.
Si un descriptor tiene todos los elementos previamente identificados, la entrada del tesauro se
asemejará a lo siguiente:
No todas las entradas tendrán todos los elementos. La mayoría de los términos tendrán un TG, y
muchos tendrán uno o más TE. La existencia de otras relaciones será menos frecuente. En el ejemplo
aparecen los elementos en el orden que suele recomendarse en las normas; y dentro de cada relación
(TG, TE, TR) los términos están ordenados alfabéticamente.
La presentación alfabética de los términos de un tesauro bien construido debe reflejar
correctamente la clasificación jerárquica. Sin embargo, la disposición alfabética tiene limitaciones: es
difícil proporcionar un panorama completo de todos los términos en una jerarquía larga o en una
categoría amplia de materias. Para mostrar un panorama completo, normalmente la presentación
alfabética va acompañada de otros tipos de presentaciones. El UNBIS Thesaurus (1981), elaborado
por la Dag Hammarskjld Library de Naciones Unidas, puede servir para ilustrar estas presentaciones
complementarias. En dicho tesauro existen dos tipos de entradas:
Presentación gráfica
En un tesauro convencional, la parte alfabética es la más importante y las demás son complementarias de
ella. Otra forma de presentación de un tesauro es la gráfica, que aunque popular en Europa no lo es tanto en
Estados Unidos. En la figura 16 (ver al final del documento) aparece una página de un hipotético tesauro. En él
se presentan de forma gráfica, en lo que se llama diagrama de flechas, los términos de la jerarquía cámaras, ya
vista en el capitulo 3. El término más general de la jerarquía (CÁMARAS) aparece en el centro. Siguiendo las
flechas podemos identificar los distintos niveles jerárquicos. Se ve fácilmente que CÁMARAS tiene cuatro
términos específicos; que uno de ellos, CÁMARAS FOTOGRÁFICAS, tiene a su vez cuatro términos
específicos: y así sucesivamente. De forma inversa, CÁMARAS DE 35 MM es una subdivisión de CÁMARAS
MINIATURA, que es una subdivisión de CÁMARAS FOTOGRÁFICAS y ésta lo es de CAMARAS, que es el
término superior. Varios términos de la estructura están unidos a otras estructuras (p. ej., CÁMARAS
CINEMATOGRÁFICAS con CINEMATOGRAFíA), de igual modo que en un atlas donde se remite de un
mapa a otro. Por eso, a este tipo de estructura se le llama muchas veces mapa terminológico.
Figura 13. Ejemplo de las listas de categorías del UNBIS Thesaurus. New York, United Nations, 1981
(Publicación Nº E.81.I.17). Reproducido con autorización.
13
Figura 14. Parte de una página de la lista jerárquica del UNBIS Thesaurus. New York, United Nations, 1981.
(Publicación Nº E.81.I.17). Reproducido con autorización.
14
13.02.00 NUCLEAR ACCIDENTS
10.04.00 RADIATIONACCIDENTS
06.03.00 RAILWAY ACCIDENTS
06.03.00 TRAFFIC ACCIDENTS
ACCOMMODATIONS
18.00.00 ACCOMMODATIONS
ACCOUNT
18 00.00 SPECIAL ACCOUNT
ACCOUNT
05.02.00 ACCOUNTING
02.09.00 ACCOUNTING AND REPORTING
02.02.00 FLOW OF FUNDS ACCOUNTIN G
02.06.01 GOVERNMENT ACCOUNTING
05.02.00 INCOME ACCOUNTING
02.06.02 TAX ACCOUNTING
ACCOUNTS
1800.00 ACCOUNTS...
18.00.00 ACCOUNTS OF EXECUTIN O AGENCIES
05.02.00 ACCOUNTS RECEIVABLE
02.02.00 NATIONAL ACCOUNTS
14.05.01 SOCIAL ACCOUNTS
ACCULTYURATION
14.05.03 ACCULTURATION
ACETYLENE
05 04.00 ACETYLENE
ACHIEVEMENT
18.00.00 ACHIEVEMENT INDICATORS
11.01.00 ACHIEVEMENT MOTIVATION
ACID
03.04.00 ACID RAIN
ACOUSTIC
05.05.00 ACOUSTIC ENGINEERING
ACOUSTICS
09.02.00 ARCHITECTURAL ACOUSTICS
16.04.00 UNDERWATFR ACOUSTICS
Figura 15. Indice KOWC del UNBIS Thesaurus. New York, United Nations, 1981 (Pubblicación Nº E.81.I.17).
Repoducido con autorización.
También es necesario contar con un índice alfabético de esos mapas, como el que se presenta en la
figura 17. Éste es algo más que un índice, ya que incluye todos los elementos que aparecen en un
tesauro.
A lo largo del tiempo se han propuesto varias formas de presentaciones gráficas. En las figuras 18-
21 (ver al final del documento) aparecen cuatro formatos diferentes.
15
El TDCK Circular Thesaurus S3ystem (1963), mostrado en la figura 18, fue uno de los primeros
tesauros y el primero de su tipo. Los términos están dispuestos dentro de círculos concéntricos,
representando cada uno de ellos un nivel de jerarquía, con el término superior (en esta figura,
PUBLICATIONS) en el centro. La primera edición del TDCK Circular Thesaurus distribuía de este
modo más de 10.000 términos. Según Rolling (1979), el tesauro todavía se actualiza regularmente.
Las presentaciones gráficas del EURATOM Thesaurus (1966-1967), que explica Rolling
(1971), posiblemente son más conocidas. Este tesauro incluye presentaciones gráfica y alfabética. Esta
última no presenta ni referencias cruzadas ni relaciones jerárquicas. La presentación gráfica utilizada
en la primera edición (figura 19) consiste en un diagrama de flechas. Las relaciones jerárquicas y
asociativas están representadas, dentro de cada grupo de palabras clave, mediante flechas. Éstas
sustituyen a las referencias cruzadas que aparecen en un tesauro convencional. Algunas flechas envían
a palabras clave relacionadas de otros gráficos. Por ejemplo, NEUTRONS está relacionada con
NEUTRON FLUX, que pertenece al gráfico 82. La dirección de las flechas va del nivel más genérico
al más específico; las palabras clave relacionadas pertenecientes al mismo nivel genérico están unidas
con flechas de dos direcciones. En la Segunda edición del tesauro se introdujo una modificación en
esta disposición (figura 20). En ella, los términos relacionados Semánticamente se agrupan en
conjuntos (campos) alrededor de las palabras clave, que aparecen en mayúsculas. Los términos
aceptados que no son palabras clave (sinónimos y términos más específicos, equivalentes a los envíos
use de un tesauro convencional) están en minúsculas, y las palabras prohibidas están en cursiva. La
diferencia entre esos dos tipos de términos es que, los términos aceptados pueden utilizarse en la
indización y la recuperación, mientras que los términos prohibidos no. Los envíos ver también y TR
de un tesauro convencional se sustituyen en los diagramas de flechas por uniones, indicando la fuerza
de la unión (la intensidad de la «relación semántica») mediante la fuerza del trazado de la línea. En el
margen de cada diagrama se indican los gráficos relacionados. Por ejemplo, DEUTERON BEAMS
está conectado con DEUTERIUM, que aparece en el gráfico 20, relativo a radioisótopos. Según
Colbach (1970), estas estructuras «eliminan la necesidad de frecuentes referencias cruzadas y NA que
definan la cobertura conceptual de las palabras clave, ya que el alcance de cada una queda definida
por los términos que le rodean que no son palabras clave y limitado por las palabras clave vecinas»
(pp. 587-588).
Finalmente, la figura 21 muestra otra forma de presentación, tomada del Metallurgy Thesaurus
(1974), tesauro trilingüe del campo de la metalurgia. Este tesauro es semejante al utilizado por el
Laboratorio Francés de Investigación en Carreteras (Van Dijk, 1966). En ambos, se puede superponer
una transparencia para mostrar las equivalencias lingüísticas en varios idiomas.
El primer tesauro con facetas se debe a Aitchison et al. (1969). Éste contenía 16.000 términos
aprobados y 7.000 «términos de entrada» y en él la clasificación por facetas (figura 25) y el tesauro
(figura 26) (ver al final del documento) estaban completamente integrados. Ambas partes parecen
bastante convencionales. Los envíos use controlan los sinónimos y proporcionan entradas de términos
específicos que no se utilizan en la indización o la recuperación. También contiene los recíprocos UF.
Junto a cada descriptor del tesauro aparece su número de clase.
(Fig. 25)
Los términos específicos adicionales del tesauro son listados de forma parecida y se indican con
la abreviatura NT (A). Como ejemplo de esto, consideremos el término JETS. Este término aparece en
los esquemas con facetas del siguiente modo:
CWJ Jets
CWK Jet Streams
CWL Plumes
CWM Wall jets
CWO Couette flow
CWP Jet mixing
CWQ Propulsive jets
Ésta es la jerarquía primaria de JETS; los términos listados relativos a JETS se refieren todos a
corrientes dinámicas de fluidos. Pero existen otros tipos de jets que suponen uniones jerárquicas
adicionales y que son los que aparecen con NT (A) debajo de JETS:
JETS
NT(A) JETS (HOVERCRAFT)
PLASMA JETS
La utilización conjunta del esquema de clasificación y del tesauro permite contemplar todas las
«uniones jerárquicas múltiples» de los términos.
En el Thesaurofacet, la parte del tesauro hace la función del índice alfabético de materias que
normalmente tienen las clasificaciones por facetas convencionales. Además, la clasificación por
facetas reemplaza a la estructura jerárquica tradicional de un tesauro, mediante los envíos TG/TE. El
Thesaurofacet se beneficia de la meticulosidad del análisis por facetas, presentando de forma consis-
tente las relaciones más importantes entre los términos y proporcionando un estricto control de los
sinónimos. La estructura de facetas facilita la búsqueda genérica y la del tesauro hace posible el
acceso inmediato a un término específico y proporciona relaciones entre los términos que no aparecen
en la parte con facetas. Este tipo de tesauro puede ser utilizado tanto en un sistema precoordinado
(usando la síntesis notacional) como en uno postcoordinado.
Desde la publicación del Thesaurofacet han aparecido algunos tesauros basados en los mismos
principios y sólo varían en cuanto al grado de interdependencia entre los elementos de las partes con
facetas y alfabética. Un ejemplo es el Unesco Thesaurus (1977) del que también es responsable Jean
Aitchison, autor del primer tesauro con facetas.
El ROOT Thesaurus (1981) posiblemente sea el tesauro más detallado de todos los que combinan
una clasificación por facetas y una presentación alfabética. En las figuras 27 y 28 (ver al final del
documento) se pueden ver ejemplos de ambas estructuras. En la figura 27 se indican, clara y
explícitamente, las facetas en las que se divide una materia («By property», «By additive», etcétera).
El tesauro utiliza los siguientes signos especiales (p. 102):
= un sinónimo no preferente
* < un término genérico adicional de otra división del tesauro (p. ej. GASOLINE
ADDITIVES puede considerarse como específico de TJP, ADDITIVES, y como una
subdivisión de GASOLINE)
= un sinónimo no preferente
< un término genérico en la misma división del tesauro (p.ej., LIGNITE aparece como
específico de COAL)
> un término específico en la misma división del tesauro (p.ej., FUEL OIL es un específico
de MINERAL OILS)
HIGH-GRADE GASOLINE
GASOLINE JOK
indica que la primera materia debe ser indizada con el término que hay tras la flecha. El segundo
ejemplo,
Capítulo XVI
Evaluación de los tesauros
Un tesauro puede evaluarse superficialmente mediante un simple examen. Por ejemplo, pueden
valorarse ciertos aspectos globales: ¿Contiene una adecuada introducción que informe de su ámbito de
aplicación y que explique sus características distintivas? ¿Incluye presentaciones alternativas (al
menos secciones alfabética y jerárquica complementarias)? A un nivel superior, ¿son correctas las
relaciones TGITE y TR? ¿Los términos poco usuales o ambiguos son aclarados por su contexto, con
calificadores, o mediante notas de aplicación? También puede valorarse que todas las relaciones
tengan sus recíprocos, aunque utilizando el ordenador es improbable que falten.
20
Un experto en la materia, además, podría evaluar el tesauro comprobando si distintas materias
están representadas en él y silos términos que las representan son suficientemente específicos.
También podría hacerse esta comprobación sobre una muestra aleatoria de artículos o resúmenes,
determinando si las palabras clave aparecen en el tesauro.
Es posible comprobar si el tesauro cumple las normas internacionales sobre las convenciones
singular/plural, formas de las palabras, entradas directas, y otros aspectos de consistencia. También
pueden considerarse aspectos estéticos de composición y tipografía.
Además de lo anterior se han propuesto y aplicado varias pruebas estadísticas para la evaluación
de los tesauros. Por ejemplo, Kochen y Tagliacozzo (1968) evaluaron varios vocabularios controlados
mediante una razón de relación y una medida de accesibilidad. La razón de relación es la razón entre
términos con referencias cruzadas (es decir, términos unidos al menos a otro término, p.ej., con TG,
TE o TR) y el número total de términos del vocabulario. La medida de accesibilidad es la media de
reenvíos a los descriptores del vocabulario. Por ejemplo, una medida de accesibilidad de 2,923 indica
que cada término del vocabulario tiene una media de reenvíos de aproximadamente otros tres
términos. Estas medidas indican la amplitud de las uniones (es decir, referencias cruzadas) entre los
términos de un vocabulario. Altas cifras probablemente corresponderán a un tesauro más útil.
Estos tipos de medidas, esencialmente cuantitativas, han sido desarrolladas por el Bureau Marcel
Van Dijk (1976). La razón de relación es sustituida por la de conexión que es definida como (b - a)/b,
donde a es el número de descriptores del vocabulario que aparecen aislados (es decir, no unidos a
otros) y b es el número total de descriptores del vocabulario. Cuanto más cerca esté de la unidad,
mejor será el tesauro. La medida de accesibilidad de Kochen y Tagliacozzo se convierte en una razón
de enriquecimiento. El valor recomendado está entre 2 y 5 e indica que demasiados reenvíos por
descriptor (más de 5) serían un estorbo más que una ayuda.
Se han propuesto nuevas medidas, como:
Algunas de estas medidas son ingeniosas, pero otras resultan triviales (razón de reciprocidad) e
incluso arbitrarias (la flexibilidad). Los valores recomendados son bastante arbitrarios. Se
establecieron a partir de algunos tesauros considerados como «buenos» y a los que se aplicaron las
distintas medidas.
Desde luego, es imposible evaluar un tesauro si no se hace en condiciones de uso real. La
prueba definitiva nos la dará la existencia de términos suficientemente específicos para
representar adecuadamente la materia de los documentos y las peticiones, el grado de
ambigüedad sintáctica en la base de datos y la utilidad del tesauro para encontrar todos los
términos necesarios para realizar una búsqueda concreta.
∗
Para los tesauros españoles el valor recomendado también es de 1,5-2,0 (N. del T.)