Vocabulario Controlado. Lancaster

1
Lancaster, F. W. (1995). Cap. 1: ¿Por qué el control del vocabulario? En El control del vocabulario en la recuperación de informa-
ción. Valencia: Universitat de Valencia.
En los sistemas de recuperación de la información suele ser esencial el control del vocabulario utilizado para representar las mate-
rias. El control del vocabulario en la recuperación de información, como el propio título indica, trata de los distintos aspectos del
control del vocabulario en el contexto de la recuperación de información. Se centra especialmente en el tesauro 1 ya que éste es el
sistema de control del vocabulario más utilizado en la recuperación de la información durante los últimos 20 años. Sin embargo,
también se han considerado otros aspectos, como el funcionamiento de los sistemas de recuperación de la información sin control
del vocabulario.
En la figura 1 se muestran los principales elementos de un sistema de recuperación de la información. La entrada (input) consiste
en los documentos (en su sentido más amplio, impresos o de cualquier otro tipo) adquiridos por el centro de documentación que
maneja el sistema. Esto implica la existencia de criterios y políticas de selección, que a su vez implican un conocimiento detallado
y exacto de las necesidades de información de la comunidad a la que se dirige el sistema. Una vez adquiridos los documentos,
éstos han de ser «organizados y controlados» de modo que puedan ser identificados y localizados en respuesta a los diferentes
tipos de demandas de los usuarios. Las actividades de organización y control incluyen la clasificación, la catalogación, la indiza-
ción y el resumen. Dos elementos importantes son la descripción física del documento (catalogación descriptiva) y la elección de
los puntos de acceso (autores, títulos) para su inclusión en catálogos y bibliografías.
Como se observa en la figura 1 el proceso de indización implica dos fases intelectuales bastante diferentes: el «análisis concep -
tual» de un documento y la «traducción» de aquél a un vocabulario determinado. Para efectuar un análisis conceptual adecuado,
el indizador necesita no sólo la comprensión de la materia del documento, sino también un buen conocimiento de las necesidades
de los usuarios del sistema.
La segunda fase del proceso de indización es la traducción del análisis conceptual a un vocabulario determinado. En la mayoría
de los sistemas se cuenta con un «vocabulario controlado», es decir, un conjunto limitado de términos que deben utilizarse para
representar las materias de los documentos. Este vocabulario puede ser una lista de encabezamientos de materias, un esquema
de clasificación, un tesauro o simplemente una lista «autorizada» de frases o palabras clave.
Tras la indización, los documentos son almacenados de algún modo (base de datos de documentos) y los registros de indización
se organizan en una segunda base de datos de forma que puedan ser buscados fácilmente en respuesta a distintos tipos de peti-
ciones. La base de datos de los registros de indización, o «representaciones de los documentos», puede ser simplemente un fi-
chero o un índice impreso. En la actualidad esta base de datos, normalmente, será un fichero automatizado sobre cinta magnética
o disco, que puede considerarse como el «índice» del documento almacenado. El índice de la figura 1 consiste en una descripción
bibliográfica de cada documento de la colección junto a varios puntos de acceso, para que esta representación sea recuperable,
no sólo por los términos que describen las materias sino también por otras características como autor y título.
En el diagrama se considera una base de datos bibliográfica (de documentos). Las fases no cambiarían significativamente si se
tratara de una base de datos de otro tipo (p. ej., numérica). Los contenidos también han de indizarse para hacerlos accesibles,
pero el «almacenamiento de documentos» será sustituido por listas automatizadas de datos (físicos, químicos, numéricos o esta-
dísticos).
Las fases de la salida del sistema (output) son muy similares a las que se dan en la entrada. Los usuarios realizan diferentes peti-
ciones al centro de documentación y los documentalistas preparan estrategias de búsqueda para esas peticiones. Resulta opor-
tuno considerar también en la preparación de las estrategias de búsqueda las fases de análisis conceptual y de traducción. La
primera fase implica un análisis de la petición para determinar lo que realmente busca el usuario y la segunda consiste en la tra-
ducción del análisis conceptual al vocabulario del sistema. El análisis conceptual de la petición, traducido al lenguaje del sistema,
es la estrategia de búsqueda, que puede considerarse como una representación de la petición, del mismo modo que el registro de
indización puede contemplarse como una representación del documento. La única diferencia es que en aquélla normalmente exis-
te «lógica» (es decir, se especifican un cierto número de relaciones lógicas entre los términos), mientras que en el registro de
indización las relaciones lógicas entre los términos estarán más implícitas que explícitas.
1
Aunque thesaurus se utiliza universalmente y conceptualmente es más preciso que tesauro, empleamos este último término debido a
su uso general, tras la publicación de la norma UNE 50-106-90, en los textos en castellano sobre el tema (N. del T.)
2
Figura 1. Componentes principales de un sistema de recuperación de la información.

Una vez terminada la estrategia de búsqueda se «compara» de algún modo con las representaciones de los documentos de la
base de datos. Esto puede hacerse mediante un fichero manual, índices impresos, microfilm, cinta magnética o disco. En la actua-
lidad, la búsqueda puede hacerse online, desde un terminal en una biblioteca, aunque la base de datos esté a cientos o miles de
kilómetros de distancia. Las representaciones de los documentos que se ajustan a la estrategia de búsqueda, es decir, que satis -
facen los requerimientos lógicos de la búsqueda, son recuperadas de la base de datos y ofrecidas al usuario de forma impresa o
por pantalla. El proceso acaba cuando el usuario queda satisfecho con los resultados de la búsqueda. En algunos casos esto
puede consistir en el convencimiento de que no hay nada en la base de datos que se ajuste a sus necesidades.
La figura 1 indica con claridad el papel central que juega el vocabulario en un sistema de recuperación de la información. Los indi-
zadores tienen que utilizar los términos de este vocabulario para representar las materias de los documentos. En las estrategias
de búsqueda se utilizarán los mismos términos para la interrogación a la base de datos. Podemos hacernos una idea de lo que
podría ocurrir si el sistema funcionara sin control del vocabulario examinando la lista de términos de la figura 2. Puede considerar -
se que todos ellos (y la lista no es completa) tienen algo que ver con el proceso de «unión» (de materiales como los metales y los
plásticos). La lista contiene una amplia variedad de tipos de términos: algunos (como conexión, soldadura fuerte, encolado) repre-
sentan procesos de unión; otros (como planchas y hojas) representan cosas que pueden ser unidas; otros representan tipos de
uniones (aglomerados, soldadura); y otros se refieren a sustancias (aleaciones, colas) o instrumentos (soldadores, varillas solda-
doras), propiedades de materiales o uniones (fragilidad, resistencia) o procesos que pueden afectar a las uniones (corrosión, dete-
rioro, etc.).
Adherencia Hojas Conexión Soldadura de arco sumergido
Adhesivos Láminas Corrosión Soldadura autógena
Aglomerantes Oxidación Deterioro Soldadura fuerte
Aleación de soldadura fuerte Planchas Encolado Soldadura oxiacetilénica
Aleaciones Resistencia Encoladuras Soldaduras
Articulaciones Rotura Fatiga Soplete
Avería Soldabilidad Fisuración Tenacidad
Cementos Soldadores Fractura Tensión
Clavos Soldadura de arco Fragilidad Tornillos
Colas Soldadura de arco cubierto Gases Uniones
3
Gases inertes Uniones mecánicas Gomas Varillas soldadoras
Gases protectores Uniones rígidas
Figura 2. Lista de términos seleccionados sobre unión de materiales.
Estos términos pueden aparecer en un catálogo alfabético de materias o en un índice (p.ej., de una enciclopedia o un boletín de
resúmenes), donde podrían estar entremezclados con muchos otros términos relacionados con otras materias. En ese caso, la
persona interesada en información sobre unión, tendría varios problemas. En primer lugar, algunos de los términos de la lista signi-
fican casi lo mismo; es decir, son sinónimos o cuasisinónimos. Un ejemplo es «láminas» y «planchas»; a nivel muy técnico, «sol-
dadura de arco cubierto» puede ser considerado sinónimo de «soldadura de arco sumergido». Si estas variaciones terminológicas
no se hacen equivalentes en el contexto de un determinado campo temático, sería preferible relacionar los sinónimos escogiendo
uno de ellos y remitiendo a él desde los demás como en el siguiente ejemplo: láminas - planchas
Otro problema que se presenta es que algunos términos son ambiguos fuera de su contexto. Así, «articulaciones» podría referirse
al enlace entre dos piezas de una máquina o instrumento o a las uniones anatómicas y «fatiga» podría referirse a cansancio o al
fenómeno de disminución de resistencia de los metales. Se debería reducir tal ambigüedad, por ejemplo, mediante un calificador
entre paréntesis: articulaciones (anatómicas)
El mayor problema posiblemente sea que en una lista alfabética los términos con significados cercanos aparecerán separados.
Aunque sea improbable que alguien plantee una búsqueda sobre cada aspecto del tema unión, sí es posible que alguien quiera
recuperar toda la información relativa a algún tipo de unión, como unión por adherencia. El orden alfabético va a separar muchos
términos relacionados con esa materia: adhesivos, aglomerantes, cementos, colas, gomas, etc. Sería útil para el que busca infor-
mación que todos los términos con significados relacionados estuvieran unidos de algún modo, como en el siguiente ejemplo:
Fisuración
En el diagrama se puede observar que están representados dos tipos de relaciones. Uno es la relación permanente entre una
cosa y tipos de esa cosa (entre un género y sus especies): fractura y rotura son siempre tipos de averías. El otro tipo de relación
es más transitorio; por ejemplo, el proceso de avería puede estar inducido por otros procesos como corrosión y fatiga e influido por
propiedades físicas como resistencia y tenacidad. A la relación genérica permanente a veces se la conoce como relación paradig-
mática o relación a priori, mientras que a la relación más transitoria (la avería puede estar ocasionada por la corrosión, pero no
siempre se debe a ella ni la corrosión conduce siempre a una avería) en ocasiones se la llama relación sintagmática o a posteriori.
Los ejemplos vistos, basados en los términos de la figura 2, demuestran claramente los objetivos del control del vocabulario en un
sistema de recuperación de la información. Estos objetivos pueden resumirse en:
1. Facilitar la representación consistente de las materias por parte de indizadores y usuarios que recuperan, evitando la disper-
sión de los elementos relacionados. Esto se consigue con el control (agrupación) de los sinónimos y cuasisinónimos y la distin-
ción de los homógrafos.
2. Facilitar la realización de una búsqueda amplia sobre una materia enlazando los términos con relaciones paradigmáticas o
sintagmáticas.
La indización tiende a ser más consistente cuando el vocabulario utilizado está controlado. Será más probable que los indizadores
estén de acuerdo sobre los términos necesarios para representar una determinada materia, si éstos son seleccionados de una
lista previa que si pueden utilizar cualquier término. Lo mismo ocurre en el proceso de búsqueda: será más fácil identificar los
términos apropiados a una necesidad de información si son seleccionados de una lista determinada. Por lo tanto, el vocabulario
controlado facilita la coincidencia entre el lenguaje de los indizadores y el de los usuarios que hacen la búsqueda.
Un vocabulario controlado no necesita más que un limitado conjunto de términos que puedan ser utilizados por el indizador y el
usuario. Sin embargo, normalmente los términos están sujetos a algún tipo de estructura para que aquellos que tienen significados
cercanos aparezcan juntos o relacionados de alguna forma. Ello ayudará, tanto al indizador como al usuario que hace la búsque -
da, a poder seleccionar los términos más adecuados para representar una determinada materia. Y, aún más importante, ayudará
al usuario a identificar todos los términos necesarios para realizar una búsqueda amplia sobre alguna materia.

Vocabulario Controlado. Lancaster

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Vocabulario Controlado. Lancaster

Cargado por

Copyright:

Formatos disponibles

1

Figura 1. Componentes principales de un sistema de recuperación de la información.

También podría gustarte