Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lancaster, F. W. (1995). Cap. 1: ¿Por qué el control del vocabulario? En El control del vocabulario en la recuperación de informa-
ción. Valencia: Universitat de Valencia.
En los sistemas de recuperación de la información suele ser esencial el control del vocabulario utilizado para representar las mate-
rias. El control del vocabulario en la recuperación de información, como el propio título indica, trata de los distintos aspectos del
control del vocabulario en el contexto de la recuperación de información. Se centra especialmente en el tesauro 1 ya que éste es el
sistema de control del vocabulario más utilizado en la recuperación de la información durante los últimos 20 años. Sin embargo,
también se han considerado otros aspectos, como el funcionamiento de los sistemas de recuperación de la información sin control
del vocabulario.
En la figura 1 se muestran los principales elementos de un sistema de recuperación de la información. La entrada (input) consiste
en los documentos (en su sentido más amplio, impresos o de cualquier otro tipo) adquiridos por el centro de documentación que
maneja el sistema. Esto implica la existencia de criterios y políticas de selección, que a su vez implican un conocimiento detallado
y exacto de las necesidades de información de la comunidad a la que se dirige el sistema. Una vez adquiridos los documentos,
éstos han de ser «organizados y controlados» de modo que puedan ser identificados y localizados en respuesta a los diferentes
tipos de demandas de los usuarios. Las actividades de organización y control incluyen la clasificación, la catalogación, la indiza-
ción y el resumen. Dos elementos importantes son la descripción física del documento (catalogación descriptiva) y la elección de
los puntos de acceso (autores, títulos) para su inclusión en catálogos y bibliografías.
Como se observa en la figura 1 el proceso de indización implica dos fases intelectuales bastante diferentes: el «análisis concep -
tual» de un documento y la «traducción» de aquél a un vocabulario determinado. Para efectuar un análisis conceptual adecuado,
el indizador necesita no sólo la comprensión de la materia del documento, sino también un buen conocimiento de las necesidades
de los usuarios del sistema.
La segunda fase del proceso de indización es la traducción del análisis conceptual a un vocabulario determinado. En la mayoría
de los sistemas se cuenta con un «vocabulario controlado», es decir, un conjunto limitado de términos que deben utilizarse para
representar las materias de los documentos. Este vocabulario puede ser una lista de encabezamientos de materias, un esquema
de clasificación, un tesauro o simplemente una lista «autorizada» de frases o palabras clave.
Tras la indización, los documentos son almacenados de algún modo (base de datos de documentos) y los registros de indización
se organizan en una segunda base de datos de forma que puedan ser buscados fácilmente en respuesta a distintos tipos de peti-
ciones. La base de datos de los registros de indización, o «representaciones de los documentos», puede ser simplemente un fi-
chero o un índice impreso. En la actualidad esta base de datos, normalmente, será un fichero automatizado sobre cinta magnética
o disco, que puede considerarse como el «índice» del documento almacenado. El índice de la figura 1 consiste en una descripción
bibliográfica de cada documento de la colección junto a varios puntos de acceso, para que esta representación sea recuperable,
no sólo por los términos que describen las materias sino también por otras características como autor y título.
En el diagrama se considera una base de datos bibliográfica (de documentos). Las fases no cambiarían significativamente si se
tratara de una base de datos de otro tipo (p. ej., numérica). Los contenidos también han de indizarse para hacerlos accesibles,
pero el «almacenamiento de documentos» será sustituido por listas automatizadas de datos (físicos, químicos, numéricos o esta-
dísticos).
Las fases de la salida del sistema (output) son muy similares a las que se dan en la entrada. Los usuarios realizan diferentes peti-
ciones al centro de documentación y los documentalistas preparan estrategias de búsqueda para esas peticiones. Resulta opor-
tuno considerar también en la preparación de las estrategias de búsqueda las fases de análisis conceptual y de traducción. La
primera fase implica un análisis de la petición para determinar lo que realmente busca el usuario y la segunda consiste en la tra-
ducción del análisis conceptual al vocabulario del sistema. El análisis conceptual de la petición, traducido al lenguaje del sistema,
es la estrategia de búsqueda, que puede considerarse como una representación de la petición, del mismo modo que el registro de
indización puede contemplarse como una representación del documento. La única diferencia es que en aquélla normalmente exis-
te «lógica» (es decir, se especifican un cierto número de relaciones lógicas entre los términos), mientras que en el registro de
indización las relaciones lógicas entre los términos estarán más implícitas que explícitas.
1
Aunque thesaurus se utiliza universalmente y conceptualmente es más preciso que tesauro, empleamos este último término debido a
su uso general, tras la publicación de la norma UNE 50-106-90, en los textos en castellano sobre el tema (N. del T.)
2
Fisuración
En el diagrama se puede observar que están representados dos tipos de relaciones. Uno es la relación permanente entre una
cosa y tipos de esa cosa (entre un género y sus especies): fractura y rotura son siempre tipos de averías. El otro tipo de relación
es más transitorio; por ejemplo, el proceso de avería puede estar inducido por otros procesos como corrosión y fatiga e influido por
propiedades físicas como resistencia y tenacidad. A la relación genérica permanente a veces se la conoce como relación paradig-
mática o relación a priori, mientras que a la relación más transitoria (la avería puede estar ocasionada por la corrosión, pero no
siempre se debe a ella ni la corrosión conduce siempre a una avería) en ocasiones se la llama relación sintagmática o a posteriori.
Los ejemplos vistos, basados en los términos de la figura 2, demuestran claramente los objetivos del control del vocabulario en un
sistema de recuperación de la información. Estos objetivos pueden resumirse en:
1. Facilitar la representación consistente de las materias por parte de indizadores y usuarios que recuperan, evitando la disper-
sión de los elementos relacionados. Esto se consigue con el control (agrupación) de los sinónimos y cuasisinónimos y la distin-
ción de los homógrafos.
2. Facilitar la realización de una búsqueda amplia sobre una materia enlazando los términos con relaciones paradigmáticas o
sintagmáticas.
La indización tiende a ser más consistente cuando el vocabulario utilizado está controlado. Será más probable que los indizadores
estén de acuerdo sobre los términos necesarios para representar una determinada materia, si éstos son seleccionados de una
lista previa que si pueden utilizar cualquier término. Lo mismo ocurre en el proceso de búsqueda: será más fácil identificar los
términos apropiados a una necesidad de información si son seleccionados de una lista determinada. Por lo tanto, el vocabulario
controlado facilita la coincidencia entre el lenguaje de los indizadores y el de los usuarios que hacen la búsqueda.
Un vocabulario controlado no necesita más que un limitado conjunto de términos que puedan ser utilizados por el indizador y el
usuario. Sin embargo, normalmente los términos están sujetos a algún tipo de estructura para que aquellos que tienen significados
cercanos aparezcan juntos o relacionados de alguna forma. Ello ayudará, tanto al indizador como al usuario que hace la búsque -
da, a poder seleccionar los términos más adecuados para representar una determinada materia. Y, aún más importante, ayudará
al usuario a identificar todos los términos necesarios para realizar una búsqueda amplia sobre alguna materia.