Está en la página 1de 42

Máster en Bibliotecas, Archivos y

Continuidad Digital
Complementos formativos

Lenguajes Documentales y Análisis de Contenido

Septiembre de 2021
Profesorado: Ricardo EITO-BRUN reito@bib.uc3m.es
Autores de los materiales:
Miguel Ángel MARZAL GARCÍA-QUISMONDO
Ricardo EITO-BRUN (Anexos)

pág. 1
Tabla de contenidos

1 FACTORES Y FUDAMENTOS DE LOS LENGUAJES DOCUMENTALES............................. 5


1.1 DOCUMENTO, TEXTO Y SUS FUNCIONES ................................................................ 5
1.1.1 El Análisis de Contenido ................................................................................... 5
1.1.2 Redefinición de Documento............................................................................. 6
1.1.3 El texto................................................................................................................ 8
1.2 LOS LENGUAJES DOCUMENTALES .........................................................................12
1.2.1 Origen y Concepto ...........................................................................................12
1.2.2 Caracteres ........................................................................................................13
1.2.3 Elementos .........................................................................................................14
1.2.4 Tipos de Lenguajes Documentales ............................................................... 14
1.2.5 Lenguaje Documental versus Lenguaje Natural ........................................... 15
2 LA INDIZACIÓN................................................................................................................16
2.1 Definición .................................................................................................................16
2.2 Sistemas de Indización ...........................................................................................17
2.2.1 Indización por materias ..................................................................................17
2.2.2 Indización por unitérminos ............................................................................17
2.2.3 Indización por descriptores ...........................................................................17
2.3 Proceso de Indización ............................................................................................18
2.3.1 La Normalización ............................................................................................. 18
2.3.2 Estilos ................................................................................................................18
2.3.3 Zonas de extracción de términos .................................................................19
2.4 CARACTERES DE LA INDIZACIÓN. ..........................................................................19
2.4.1 Exhaustividad, precisión y relevancia ..........................................................19
2.4.2 Especificidad y corrección .............................................................................20
2.4.3 Consistencia o coherencia .............................................................................20
2.4.4 La calidad .........................................................................................................21
3 EL TESAURO ....................................................................................................................22
3.1 Concepto y definición ............................................................................................22
3.2 Construcción y Unidades del tesauro ..................................................................23
3.2.1 Normativas. Gestión de términos candidatos a descriptores...................24
3.2.2 Selección terminológica y registro de términos .........................................24
3.2.3 Fuentes de elaboración ..................................................................................25
3.2.4 Construcción del Tesauro: relaciones y estructura ...................................25
pág. 2
3.2.5 Tipos de Tesauro ............................................................................................. 26
3.2.6 Gestión y mantenimiento de Tesauros ........................................................26

3.2.7 Presentación y aplicabilidad del Tesauro....................................................27


4 EL RESUMEN DOCUMENTAL ..........................................................................................28
4.1 Concepto y Funciones ............................................................................................28
4.2 Tipología...................................................................................................................29
5 Tendencias......................................................................................................................30
ANEXO I: La norma ISO 25964.............................................................................................. 34
Parte 1.................................................................................................................................34
Parte 2.................................................................................................................................35
ANEXO II: LENGUAJES DOCUMENTALES Y SKOS ................................................................ 36
Origen y motivación ..........................................................................................................36
Características y ventajas de SKOS ................................................................................36
Estructura de SKOS............................................................................................................37
BIBLIOGRAFÍA .........................................................................................................................40

pág. 3
GUÍA DOCENTE

1. Objetivos de la materia
a. Conocer los fundamentos, problemas y técnicas del análisis y
representación del contenido y de la información, así como las
principales teorías y métodos de indización y resumen.

b. Reconocer el papel de la indización, tesauros y el resumen en el acceso


y la recuperación de información.

c. Comprender las competencias básicas para seleccionar y manejar un


lenguaje documental: vocabulario controlado, tesauro, sistema de
clasificación temático o de funciones.

d. Adquirir unos fundamentos básicos para evaluar productos y servicios


de indización y resumen existentes en el mercado.

e. Familiarizarse con las técnicas básicas para procesar adecuadamente


los contenidos digitales y audiovisuales para una adecuada
representación de contenidos y del conocimiento en sistemas de
información.

f. Adquirir fundamentos conceptuales básicos y suficientes para


comprender el uso eficiente en archivos y bibliotecas digitales de los
vocabularios semánticos y los sistemas de representación del
conocimiento.

2. Sistema de Evaluación
a. Seguimiento puntual de la materia por consulta de los materiales
didácticos de esta materia, para lo que se hará un examen de accesos,
puntos de acceso y tiempo de acceso de los alumnos en las distintas
categorías de los materiales didácticos.

b. Test o cuestionario final de evaluación a partir del presente material


didáctico

pág. 4
1 FACTORES Y FUDAMENTOS DE LOS
LENGUAJES DOCUMENTALES
1.1 DOCUMENTO, TEXTO Y SUS FUNCIONES
1.1.1 El Análisis de Contenido

Su origen se situó en la necesidad de solucionar el problema del acceso


a la información, por esta razón su objetivo inicial fue optimizar las búsquedas
sobre documentos primarios. La consecución de este objetivo reclamó:
investigar las demandas de los usuarios primero, y luego el proceso
documental para la obtención del documento secundario.
La definición del Análisis de Contenido se inscribió, por tanto, dentro del
Análisis Documental que preconizaba un análisis de los documentos desde su
forma (ADF, Análisis Documental de Forma) y su contenido (ADC, Análisis
Documental de Contenido). Estos objetivos dieron una doble dimensión al
Análisis Documental:
1. Recuperación de la Información (Information Retrieval), como conjunto
de tareas que el usuario debe realizar para localizar y acceder a un
recurso informativo, para así resolver un problema, mediante la
descripción documental (W.B. Croft).
2. Representación de la Información, como planificación, gestión y
evaluación de estrategias para organizar los contenidos de los recursos
informativos, mediante un lenguaje.

La explosión de la información y el desarrollo de la Documentación


Científica, estimularon el Análisis Documental, aportando nuevas reflexiones
conceptuales:

 Contenido, como materia intrínseca del texto


 Significado o sentido, según el uso del texto
 Contexto

Se hacía necesaria, pues, la colaboración e incorporación colaborativa de la


Pragmática Lingüística, cuyo objetivo y objeto de investigación son los sistemas
de significación, cuyos elementos definitorios son:

 Habla. Se comporta de modo diferente en la comunicación


(predominio de la Fonología y la Fonética), que en la escritura
(atención al formalismo y la especificidad lingüísticas)

 Lengua Natural, empleada en los procesos informativos.


Estimula el desarrollo y la incorporación del PLN.
pág. 5
El Análisis Documental de Contenido (en adelante, ADC) tenía, por tanto,
un “ecosistema” definido, si bien progresivamente más rico: una técnica, al
tiempo intelectiva y procedimental, para traducir el contenido documental y
reproducir la traducción en un documento secundario; el documento,
progresivamente poliédrico desde las diferentes ópticas respecto a su
soporte, mensaje, tipo, semiótica, código y sistema de comunicación,
función; el contenido, sucesivamente más polifacético, por cuanto inicialmente
el campo de acción era la comunicación verbal expresada en el texto, para
luego, al calor de las tecnologías de la información y comunicación, atender
también a un texto sin “continuum narrativo” (el contenido digital) y a la
comunicación no verbal, manifestada en el contenido icónico.
La sociedad de la información ha trastocado este espacio. Es cierto que
conocemos bien los condicionantes de su origen, pero son escasos y
controvertidos los análisis sobre sus repercusiones e implicaciones
“civilizadoras”: el enorme volumen informativo, bajo tan diferentes formatos,
se traduce en su consumo plano y su escasa derivación hacia el conocimiento,
con sus secuelas de pensamiento único o acrítico; de otro lado, los contenidos
informativos se procesan en grandes bloques de producción masiva compacta,
para su consumo individual, fragmentado, atópico y asíncrono.
Este contexto explica que, cada vez más, la comunidad científica, incluso
la política, comience a reflexionar sobre la necesaria evolución a una sociedad
del conocimiento, entendida como un salto cualitativo hacia un modelo social
deseable. En este sentido, web semántica e inteligencia artificial son
fundamentos conceptuales insoslayables para la sociedad del conocimiento, al
tiempo que campo de acción común para Informática, Lingüística
Computacional y ADC.
Así se dibujaba la posición del ADC en un nuevo espacio, donde tres
elementos, que le son esenciales, se han transformado radicalmente,
documento, texto, y la disciplina sobre la que descansaba la metodología del
ADC, la Lingüística del texto.

1.1.2 Redefinición de Documento

Tradicionalmente el concepto de documento se abordaba desde tres ópticas:


 Desde la perspectiva filológica, de modo que se le percibe con un
valor probatorio y también demostrativo
 Desde la perspectiva antropológica, como objetivación del conocimiento
en un soporte (en palabras de Pietsch), pero no entendido como un
mensaje estático, sino dinámico (perspectiva que aportó la Teoría de
la Información), para su búsqueda, recuperación y difusión.
 Desde la perspectiva comunicativa, en tanto que objeto de
comunicación, para optimizar su politextualidad, tanto más evidente
con el desarrollo de los hipermedios.

A partir de esta conceptualización, se derivaba una tipificación de los


pág. 6
documentos, también desde muy diferentes perspectivas: según el soporte,
función, origen, comunicación, medios, etc. Para las unidades de información
la tipificación más útil era por el contenido: Primarios, contienen información
nueva u original, de lectura directa; Secundarios, contienen referencias a
documentos primarios, aplicando técnicas de análisis documental, organizadas
conforme a un esquema predeterminado para su mayor utilidad, son resultado,
en mayor o menor medida, de un proceso de tratamiento documental (análisis
formal y de contenido) que trata de representar las características de los
documentos a los que da acceso (libros, recursos digitales, etc.); Obras de
referencia, documentos cuya finalidad es servir de instrumentos de consulta,
cuya estructura interna está encaminada precisamente a facilitar esa labor
de consulta y contienen información primaria y secundaria, de modo que su
confiabilidad vendrá dada por el prestigio del productor de la fuente en cuestión.
Así concebido, el documento contaba con un Proceso Documental. Mediante
este proceso, el analista establece un vínculo de comunicación entre el
usuario y la colección documental. Este vínculo se soporta en la identificación
y localización, ero su eficacia deja de estar en los datos, para pasar a
basarse en el mensaje, definido tradicionalmente, según la definición de
Desantes Guanter, en sus tres fases:

 Mensaje Documentario
 Mensaje Documentado
 Mensaje Documental

Esta concepción del “proceso documental”, incidió en una concepción dual


del Análisis Documental: este análisis se hallaría en la Cadena Documental,
tanto en la Fase de Tratamiento (definida por Chaumier), como en la Fase
de Difusión, por cuanto da origen a un nuevo documento.
El documento, además, atendía a unas técnicas de representación e
identificación, conforme a su naturaleza:
 Descripción Bibliográfica, como descripción formal de los datos físicos
y bibliográficos del documento para su identificación, control y
recuperación. Su producto es el asiento bibliográfico. Deriva en la
“Descripción Catalográfica”, cuyo producto es el catálogo, al unir,
encabezamiento, notas, puntos de acceso. Sirve para organizar la
colección documental.
 Descripción Característica, para controlar la información pertinente
sobre un tópico determinado y organizar el conocimiento en la
colección. Su acción es la indización y su producto el índice: almacena
y recupera por “interés” del contenido del documento.
 Descripción Sustancial, detecta el “tópico” del contenido, recoge el
discurso y el contexto del mensaje para su representación sinóptica y
estructurada. Su producto es el resumen.

La Sociedad de la información ha alterado, sin embargo, este concepto de

pág. 7
documento, por cuanto se han ido desarrollando unas TIC que han ido
generando “documento electrónico”, “hipertexto”, “documento digital”, etc.
Desde la óptica de la Documentación es preferible hablar de hiperdocumento,
por lo que se hacen precisas unas precisiones. Hablamos de “documento
electrónico”, por ser la denominación más amplia en los entornos tecnológicos,
al referirse a aquel documento cuyo soporte es electrónico y necesita
dispositivos electrónicos para su lectura y escritura, diferenciándose del
“documento digital”, cuya información está codificada en bits, de modo que
el documento digital es sólo una posibilidad del documento electrónico.
En su tesis, M. J. Lamarca afina definiendo diferenciadamente lo que es el
documento virtual, como aquel documento previamente inexistente que, por
las posibilidades de técnicas y herramientas de búsqueda y la recuperación
informativa individualizada, permite al usuario generar un documento
automáticamente. Sólo a partir de aquí derivamos una definición precisa de
documento hipertextual, entendido como un documento virtual en el que
su estructura contiene conexiones predefinidas con otros documentos, pero
su navegación y generación depende completamente de las necesidades y
estrategias de su usuario. El documento hipertextual presenta una estructura
consistente en una red de nodos interconectados. Cuando al documento
hipertextual se le asocian elementos multimedia debemos hablar de documento
hipermedia.
Precisamente el concepto de documento hipertextual es el que permite una
más efectiva comprensión del concepto de hiperdocumento. Sin duda el nudo
gordiano de la concepción está en la estructura hipertextual de conexión entre
“documentos”, entendido como una unidad de almacenamiento de
información, que puede contener uno o un conjunto de nodos. Para M.J.
Lamarca, pues, hiperdocumento es el conjunto de “documentos” que
conforman la red hipertextual y el conjunto de componentes de la estructura
hipertextual. Esta perspectiva conceptual es particularmente útil cuando se
considera el hiperdocumento, no desde la estructura hipertextual de conexión
(esencial, pero en plano subsidiario), sino principalmente como el conjunto
de documentos que conforman su red hipertextual. De otro lado, esta
perspectiva nos permite priorizar el contenido (el almacenamiento de
información en “documentos”, que contienen “nodos”).

1.1.3 El texto
La definición más exhaustiva de texto la ha hecho E. Bernárdez: “Texto
es la unidad lingüística comunicativa fundamental, producto de la actividad
verbal humana, que posee siempre carácter social; está caracterizada por su
cierre semántico y comunicativo, así como por su coherencia profunda y
superficial, debido a la intención (comunicativa) del hablante de crear un texto
íntegro y a su estructuración mediante dos conjuntos de reglas: las propias del
nivel textual y las del sistema de la lengua.”
Desde esta óptica, adquiere un protagonismo decisivo el texto, en tanto
que manifestación de la lengua natural, combinación de unidades lingüísticas
y signos estructurados con intención comunicativa por parte del emisor,
con el fin de transformar el estado del conocimiento en el receptor.
pág. 8
Se hicieron particularmente útiles, entonces, las aportaciones de la
Semiótica (aportó la sintaxis, semántica y pragmática textuales), la Gramática
o Lingüística Textual (analiza el vínculo entre el texto, con su “prototexto” y
su “metatexto”), la Gramática Generativa y la Lingüística Computacional (para
el PLN), así como la Lingüística Cognitiva (sobre la manifestación del
pensamiento en el texto). Posteriormente, en esta convergencia de
cooperaciones se unió la Psicología Cognitiva, muy útil en la predictibilidad
en las estrategias de búsqueda y los estudios de usuarios.
El análisis del texto para representación de su contenido está determinado por
el grado de descripción identificativa o representativa que se desee sobre un
recurso informativo, respecto a:
a. Contenido, un concepto distinto a mensaje (éste se refiere a la
señal), construido por el receptor a partir del significado que se
conceda a los conceptos, mediante:
 Denotación, o relación de un signo para referir un objeto concreto.
 Connotación, relación entre un concepto y otros conceptos sugeridos
por él.
 Designación, relación entre el concepto y sus ejemplos.
 Significación, relación entre un concepto y el conjunto de conceptos
que permiten una definición.

b. Texto, que tiene como carácter definitorio ser cerrado en su estructura


superficial y abierto en la estructura profunda, de lo que se derivan dos
propiedades:
 Cohesión, que proporciona el carácter compacto a la estructura
superficial, mediante una sintaxis sistemática del discurso. NO puede
alterarse sin alterar el contenido. Se apoya en la recurrencia
(reiteración), la correferencia (contexto) y la proposición
(conceptos implícitos).
 Coherencia, que proporciona el carácter sistemático pero abierto de
la estructura profunda. Representa la pragmática o intención,
mediante los conectores del discurso, así como su identidad
referencial (constancia en el discurso).

Estos dos factores, contenido y texto, componen el Discurso del texto, cuyos
elementos de definición son: el tópico o tema discursivo; el conocimiento
subyacente; el esquema, o conocimiento prototípico.
Contenido y texto, pues, permiten una gradación en niveles descriptivos de un
recurso o documento. Los documentalistas se han agrupado en dos corrientes,
según el nivel de operaciones adecuado para tratar un texto en las distintas
unidades de información:
 Formalista, con preferencia de la descripción física de un documento

pág. 9
para su identificación y control.
 Funcionalista, con preferencia por el análisis de contenido del texto,
para representarlo.

Ambas “escuelas”, desde una perspectiva integradora, han sido el origen de


una especialidad dentro del Análisis Documental: el Análisis Documental de
Forma (ADF), cuyos productos son las bibliografías, catálogos,
encabezamientos; el Análisis Documental de Contenido (en adelante, ADC),
cuyos productos son clasificaciones, índices, tesauros, resúmenes.
La Lingüística Textual tiene por objeto de estudio el texto. Durante su
proceso de definición mantuvo una estrecha relación con el Análisis del
Discurso, si bien ambas tienen un enfoque distinto respecto al texto.
Desde los años 70 del pasado siglo en la Lingüística surgió una potente corriente
que consideraba que la Gramática debía atender como objeto de
investigación no sólo a la oración en sí, sino a las relaciones entre las oraciones,
esto es, su manifestación en el texto. Entre las escuelas lingüísticas, la
alemana ha sido particularmente activa, como lo demuestra la obra de Teun
van Dijk. En su opinión la Lingüística del Texto está capacitada para analizar
las propiedades existentes y que son superiores a la oración, proporciona
instrumentos más adecuados para converger con otras disciplinas que estudian
el “discurso”, como también proporciona instrumentos más adecuados para
estudiar el texto y la “conversación” o contexto de interacción de la lengua,
por último permite crear modelos cognitivos para la comprensión de la lengua.
Conviene, por fin, abordar cómo se entiende la organización del texto para
su tratamiento profesional.
El dualismo proveniente de las teorías de Saussure sirve para explicar
la inseparable condición compositiva de los documentos, que presentan
una estructura superficial y una estructura abstracta (enunciado):

Descripción Análisis

Soporte Catalogación

pág. 10
Estructura Identificación

superficial como

Información Información
objeto
original referencial

Superestructura Tipología textual

Estructura

semántica Indización

Macroestructuras Resumen

Esta organización se proyecta en unas tareas de análisis:

1.- La catalogación, que confirma la existencia de un documento y le


concede sus señas de identificación física como objeto integrado
en un fondo documental. Se reconocen los atributos del documento
mediante la recogida de los datos de su estructura formal. Mientras que al
análisis de la estructura informativa profunda atienden, por lo que
respecta a la superestructura del original, la tipología textual (también la
métrica y estilística literarias), siendo el contenido de las
macroestructuras analizado por la indización y el resumen:
2.- La Indización o identificación de los documentos por conjuntos, de acuerdo
con significaciones coincidentes. Sus resultados reflejan en términos
significativos y representativos los conceptos que contiene el documento,
para guiar al lector hasta la ubicación exacta de la información que persigue,
hoy la recuperación documental es la elección de las obras existentes sobre
un asunto científico o general cuya información se adecua a las necesidades
del demandante.
3.- Y el Resumen, cuyo producto consigue la reducción del mensaje mediante
la expresión más completa, rica y explicativa del documento plenamente
desarrollado.
La Lingüística Textual ha colaborado en la definición de los elementos
estructuradores del texto:
 Macro componentes, asentados en la estructura profunda,
también llamados constructos. Soportan el sentido y el significado del
pág. 11
texto.
 Microcomponentes, asentados en la estructura superficial, también
llamados observables. Soportan la argumentación.

A partir de los dos componentes anteriores, el texto se estructura en:


 Microestructura, que representa el hilo discursivo de la argumentación
(frases y párrafos).
 Macroestructura, que representa la semántica y pragmática del texto,
en un resumen.
 Superestructura, que representa el esquema tópico del texto en un
encabezamiento de materias.

En el nivel de significación más alto nos encontramos con una macroestructura


que representa el significado global del texto. Sólo desde la macroestructura
global pueden comprenderse los textos, pues ella enlaza las proposiciones que
éste contiene. Solamente mediante la visión global de un texto podemos
organizar y comprender su mensaje. La macroestructura organiza el texto, ya
que como idea más general o global vincula todas las frases y oraciones que lo
componen. La macroestructura contiene la significación esencial y por ello
global del discurso. Las estructuras del texto se ordenan jerárquicamente, hasta
alcanzar la más general: la información de una secuencia de frases se integra
de modo natural en una unidad semántica de representación global.

1.2 LOS LENGUAJES DOCUMENTALES


1.2.1 Origen y Concepto
El Positivismo primero y, luego, el nacimiento de la Documentación Científica,
junto con la explosión de la información desde la década de los 70 del siglo
XX, reclamaron instrumentos precisos para identificar y caracterizar los
documentos almacenados y para interrogar con eficacia una colección
mediante un eficaz acceso y representación del contenido del texto. Comenzó
la investigación del lenguaje para los documentos. El resultado fue los primeros
lenguajes documentales:
 Clasificaciones. Sistematizan los conocimientos y proporcionan una
ordenación material de la colección. Podían ser enciclopédicas (CDU,
DDC) de difícil actualización, y especializadas para organizar un fondo,
sin universalidad.
 Encabezamiento de materias. Listas alfabéticas precoordinadas de
palabras procedentes del lenguaje natural, con una estructura asociativa
(representada por véase, usado por, véase además, reenvío específico).
Tiene como principios la especificidad (por síntesis y por economía de
lenguaje) y orden lingüístico (nombre; nombre+adjetivo;
nombre+complemento; nombre+nombre). Sus clases son según materia,
topografía, cronología, formal.
pág. 12
La Revolución de la información y la Sociedad de la información priorizaron el
“hecho informativo”: se transforma el documento y la elaboración de la
información, por causa de la automatización y el hipertexto. La investigación
pasó a concentrarse en el lenguaje del documento. El contenido textual se
complicó por incorporar nuevos códigos de representación de contenidos:
 Contenido digital, cuyo elemento atómico es el “dato”, que tiene una
vertiente física (el etiquetado) y otra lógica (identificación,
categorización y descripción) mediante el “metadato”. El contenido
digital se caracteriza por su heterogeneidad en comunicación (visual y
acústico) y en códigos (texto, imagen, sonido), es dinámico, asociativo,
metamórfico.
 Contenido icónico, que es particularmente flexible (no depende del
contexto) y muy polisémico, por su diversidad interpretativa. Sus signos
son de tres clases: físicos (percepción sensorial), cognitivos (contexto
conceptual, histórico, acción, personas) y reactivos (respuesta del
observador).

De otro lado, como segundo problema, la incorporación del “lenguaje


natural”, como conjunto de signos lingüísticos para la comunicación de una
comunidad, es muy amplio, variable (en espacio y tiempo), ambiguo
(ambigüedad terminológica) y connotativo (matices). Se precisaba una
normalización.
Resultado de la normalización es el término: símbolo con el que se expresa un
concepto y es portador de información sustancial. El término sólo alcanza su
pleno significado cuando es una palabra especializada en un campo
determinado del saber. Entonces el término se convierte en objeto de la
Terminología: registra los datos terminológicos que describen con precisión un
concepto, selecciona la voz idónea y establece sus relaciones con otros
términos. Estudia, por tanto, las leyes y principios lingüísticos, conceptuales y
sociológicos bajo los que se organizan y evolucionan los lenguajes de
especialidad.

1.2.2 Caracteres

- Entropía. Los términos deben ser, respecto al contenido, no sólo


precisos evitando redundancias y perífrasis, sino además con una carga
sustantiva muy significativa.
- Biunivocidad, mediante una relación fija y única entre el significado y
el significante. Para la consecución de la biunivocidad reestablecen
tres tipos de relaciones entre los términos:
 Relaciones de implicación. Se hacen explícitos los conceptos
implícitos de un término (libro-editor)
 Relaciones de jerarquía, que pueden ser:
o Genéricas: de género a especie (Mamífero-Felino-Gato)
o Partitivas: de parte a todo (dedo-mano)
pág. 13
 Relaciones asociativas, de varios modos: ente/parte
(motor/válvula); ente/propiedad-atributo (moda/diseño);
ente/acción (avión/transporte); ente/aplicación
(semáforo/circulación). Estas asociaciones son posibles no sólo con
entes, sino a partir de “propiedades” y “acciones”. Más
recientemente se han incorporado las relaciones de meronimia,
hiperonimia, hiponimia.

- Control. El lenguaje documental debe ser artificial y muy representativo


del contenido, para asegurar una recuperación pertinente. Según M.
Bunge debe ser subidiomático (muy especializado), pero
interidiomático (de aplicación universal). El control se obtiene
eliminando:
 Sinonimia. Varios significantes para un significado, bien por
evolución de la lengua (rápido/raudo), bien por diferente
denominación popular o científica (coche-automóvil), variedades
regionales (viña-majuelo), barbarismos (influir-influenciar).
 Ambigüedad terminológica, por tener el mismo significante para
varios significados, a causa de:
o Homonimia: pese a la similitud formal no existe relación semántica (toro,
vino). Los programas informáticos han incorporado como problema la
homofonía: similitud fonética, pero sin ninguna relación ortográfica y
semántica (vello-bello).
o Polisemia: existe una similitud formal, un contenido
semántico distinto, pero con una relación de significado en
origen: marrano, banco, arroba.
- Contexto. Se refiere a las asociaciones ideológicas que realiza el
lenguaje natural por influencia del entorno o por economía: antinomia
(punto álgido), asociación ambiental (deporte-salud), ambigüedad
sintáctica (ciegan las luces, las estrellas).

1.2.3 Elementos

Son los operadores que buscan cumplir mejor los principios, arriba expuestos:
 Términos autorizados, extraídos del lenguaje natural. Una vez
normalizados portan una fuerte carga significativa. Se les concede la
misma denotación y connotación.
 Términos no autorizados. Significativos, pero no pueden ser
autorizados, de modo que reenvían al término autorizado.
 Relaciones. Imponen las posibles combinaciones en las búsquedas.
Pueden ser: jerárquicas (tg, te), equivalentes (up, use), asociación (tr).
 Notaciones numéricas. Indican jerarquía, pero referida a la correcta
pág. 14
colocación sintáctica en un sintagma u oración.
 Notas de alcance. Indican la exacta definición terminológica del
término.

Según Gardin estos elementos pueden generar:

 Léxico: por los códigos de los términos.


 Red paradigmática: traduce las relaciones estables entre términos.
 Red sintagmática: traduce las relaciones variables entre términos, según
las necesidades informativas del usuario.

Los efectos deseables de los elementos son: formalizan (crean códigos


simbólicos), normalizan (generan representaciones univocas), condensan
(asumen todos los significantes posibles) y describen.

1.2.4 Tipos de Lenguajes Documentales


a. Lenguajes de coordinación
Son aquellos que procuran un enlace entre el contenido temático documental
y una tabla de atributos. Existen dos modelos:
 Lenguajes precoordinados. Establecen un sistema de clasificación
conceptual-temático previo, al que se asigna luego el “tema” o materia
de cada documento. Se recupera interrogando rígidamente al sistema.
 Lenguajes postcoordinados. Establecen un léxico controlado, pero la
asignación y recuperación se hace por yuxtaposición posterior.

b. Lenguajes analíticos de control


Establecen una lista nominativa de términos, que incluyen todos los temas
posibles. Sólo pueden ser utilizados los términos autorizados.
c. Lenguajes de estructura
Elaborados por la combinación de términos. Son:
 Estructura jerárquica. Ordena los términos de genérico a particular,
siguiendo una clasificación lineal arborescente, con un número inicial.
 Estructura asociativa. Ordena los términos para practicar relaciones
horizontales.
 Estructura sintáctica, cuyo objetivo es lograr una gramática
documental para ordenar adecuadamente los términos de asociación,
en una combinación determinada Se usa como elemento ordenador, O
(origen), F (fuente o inicio), D (destino).

d. Lenguajes de precisión
Son los correctores lingüísticos en programas informáticos.
e. Tipificación de Van Slype
pág. 15
 Lenguaje libre, supone una plena apertura terminológica: i) Listas de
palabras clave. Se van incorporando todas las palabras semánticamente
ricas de cada documento. Se ordenan alfabéticamente; ii) Listas de
descriptores libres. En orden alfabético, los conceptos significativos
con las palabras clave relacionadas. Es una primera normalización hacia
el “término” por una sustantivación.
 Lenguaje controlado, usa sólo “términos”: i) Lista de autoridades.
Colección finita de términos, en orden alfabético, que representarán
unívocamente conceptos para su ordenación y recuperación. Carece de
relaciones; ii) Tesauros. Lista estructurada de términos, normalizada y
controlada, para ordenar y recuperar, mediante relaciones.
 Lenguaje codificado. Se orienta a la clasificación. Debe ser sintético y
concentrado en una notación numérica.

En la elección de lenguaje debe considerarse: la riqueza terminológica


(mayor cuanto más control), la actualización (mayor cuanto más libre),
la facilidad (mayor cuanto más natural), la coherencia pertinente (mayor
cuanto más controlado).

1.2.5 Lenguaje Documental versus Lenguaje Natural


El lenguaje natural se opone al vocabulario controlado, en la literatura
científica, se le identifica con el discurso común (lenguaje de uso común en
escritura y conversación entre los hablantes) y el texto libre.
Es bien cierto que una unidad de información tiene como fines básicos la
organización y servicio de su colección documental, mediante la normalización
y autoridad de las reglas de representación de contenidos para optimizar la
gestión eficaz de los contenidos de la colección. Estos fines parecen más
adecuados para los lenguajes documentales, sin embargo el desarrollo de los
programas informáticos han revalorizado el uso eficaz del lenguaje natural, de
modo que las unidades de información deben hacer patente esta disyuntiva:

Factores en la eficacia en Efectos del tipo de representación


representación

Extensión por número de puntos de En el lenguaje natural las


acceso representaciones son más extensas
por flexibilidad. El acierto crece pero
se reduce la precisión.

Redundancia Más en el lenguaje natural por


inexistencia de términos específicos.
Se dificulta, así, el acierto.

Presencia de términos conceptuales Son mucho más probables en los


generales lenguajes documentales.

pág. 16
Enlace con términos relacionados Mucho más eficaces por su
estructuración en los lenguajes
documentales.

2 LA INDIZACIÓN
2.1 Definición
Como es lógica, viene sesgada por la insistente inclinación hacia el
producto. De otro lado, la indización participa en dos etapas de la gestión
documental, a saber almacenamiento y recuperación, por lo que debe
atender al análisis de los documentos y a las demandas para la selección
de los conceptos explícitos o implícitos y así poder ser transformados
en un lenguaje documental, doble objetivo en el proceso documental que
difumina su concepción.
En consecuencia, la concepción y definición de la indización tiene
limitaciones, una no menor es que sólo se considera al documento
como fuente de análisis, postergando la demanda y la interrogación
documentales. Es imprescindible destacar que en todo el proceso
indizador la potencial demanda documental en una recuperación de
información debe ser el elemento guía. La indización debe ser un proceso
dirigido por el documentalista en el que diseñe un camino convergente
desde la perspectiva de almacenamiento y desde el de la recuperación.
Es muy útil la definición de UNESCO (1975): Describir y caracterizar un
documento con la ayuda de representaciones de los conceptos contenidos
en dicho documento, para permitir una búsqueda eficaz de las
informaciones contenidas en un fondo documental.

2.2 Sistemas de Indización


Son el conjunto de procedimientos prescritos para organizar los contenidos de
los registros de información, para su recuperación y difusión. Estos
procedimientos se aplican sobre tres campos para representar la información
documental: palabra, concepto y tema. Es una sucesión jerárquica que ha ido
generando diacrónicamente tres sistemas de indización:

2.2.1 Indización por materias.


Surge con la aparición de las clasificaciones enciclopédicas y las facetas,
basadas en la sistematización de materias. Estas clasificaciones alumbraron el
concepto de indización por materias al utilizar la denominación de
encabezamientos de materias y derivaron en un producto documental en las
Rules for a dictionary catalog de A. Cutter en 1876. Una lista previa de
términos de indización actuará como patrón para asignar los encabezamientos
indicativos del tema de un documento. El sistema es cómodo para ordenar,
pero contaba con dos inconvenientes: la excesiva rigidez en la
precoordinación, lo que obliga a acudir a un elevado número de
encabezamientos; es difícil prever el tema de las consultas y encabezar

pág. 17
conforme a ellas.

2.2.2 Indización por unitérminos.


Enunciada por M. Taube en 1955. Concebía los unitérminos, como los
sustantivos más pequeños y simples, seleccionados del documento para su más
útil identificación. El sistema supuso un avance en la indización porque la lista
de términos del vocabulario documental se reducía por el poder combinatorio
de las palabras, aun cuando conserva su poder de expresar un notable número
de conceptos y temas, sin el menor rango jerárquico de unos unitérminos
respecto a otros. Sus principales inconvenientes, empero, derivaron de la
ausencia de significado de muchas palabras sin su contexto y las falsas
combinaciones de los unitérminos en las búsquedas documentales.
El registro de unitérminos se efectuaba en una ficha normalizada con una
cabecera para el unitérmino y diez columnas del 0 al 9 para consignar por el
dígito terminal el número de registro del documento donde el unitérmino
apareciese. El sistema supuso un avance en la indización basada en
conceptos.

2.2.3 Indización por descriptores.


Ha sido Calvin Mooers quien acuñó el término descriptor para denotar la
incipiente metodología en la recuperación de información. Fue preciso
delimitar con exactitud el concepto de descriptor, diferenciándolo de otros
afines, objetivo que acometió H. Fondin, distinguiendo:
 Palabra clave, libre o derivada, término del lenguaje natural
seleccionado sin necesidad de consultar ningún instrumento léxico. Se
correspondía a los unitérminos.
 Término temático, seleccionado de una lista preestablecida para
representar un concepto e indicar su lugar en una organización de
conocimiento. Se correspondía a la indización por materias.
 Palabra clave controlada, o asignada, elegida de un léxico previamente
establecido. Fondin lo identifica a descriptor, pero esta denominación
sólo la admite para el tesauro.

De este modo, L. Rolling conceptuará el descriptor como el elemento de un


tesauro elegido entre un conjunto de términos equivalentes para representar
sin ambigüedad una noción contenida en un documento o en una demanda de
búsqueda documental.

2.3 Proceso de Indización


2.3.1 La Normalización.
Es una tarea compleja por intervenir en la indización aspectos cognitivos,
formativos e intelectuales y subjetivos. La normalización en indización,
además, se orienta en un doble sentido:
a. Normalización de indización en lenguaje natural.
pág. 18
Atendida por la UNESCO en el programa UNISIST para aumentar el número de
diccionarios técnico – científicos y la normalización terminológica, así como
por la ISO a través de su comité técnico T 37. El resultado ha sido las normas
ISO 5127/1-1983 e ISO 5127/3ª-1981, para conceptos básicos y adquisición,
identificación y análisis de documentos y datos, respectivamente.
b. Normalización de indización en lenguaje documental.
Impulsada, bien por iniciativas particulares, bien por iniciativas
gubernamentales como en la NASA o la Biblioteca Nacional de Medicina de los
Estados Unidos. La normalización se ha abierto camino a través de listas
normalizadas de encabezamientos de materias, o muy especialmente para la
elaboración de tesauros por parte de la UNESCO, ISO, AFNOR o ANSI, con su
correspondiente norma española UNE 50-121-91 y la Recopilación de Normas
UNE publicadas por AENOR en 1994.

2.3.2 Estilos.
Existe una gran disparidad en identificar los estilos en la indización:
a. Verificación
Un solo equipo indizador acomete la indización documental para el
almacenamiento y la indización de las demanda para la recuperación. Será
conveniente considerar las características del personal de indización, su
preparación, actividad, especialización y la posible existencia de un equipo
verificador, para unificar criterios. El objetivo es la consecución del
homomorfismo: el empleo del mismo significado – significante por parte del
usuario y del documentalista.
b. Pertinencia

Para indicar el asunto de la información documental, un modelo de asignación


temática que exige un acuerdo sobre la definición exacta de términos. Son
sumamente interesantes las aportaciones de Weinberg, para quien la
indización no debe procurar sólo indicar acerca de lo que trata un documento,
sino su novedad respecto al tópico que lo define: Swift recomienda indizar de
acuerdo a los problemas a los que se refiera el documento. Breton, por último
considera que se agilizarán las búsquedas considerando preferentemente loas
atributos y funciones.

2.3.3 Zonas de extracción de términos.


La comprensión completa del contenido informativo de un documento
requiere una lectura detallada, que en la mayor parte de las ocasiones es
impracticable por el indizador. El texto, pues, debe ser descompuesto en
partes según su potencial densidad en la producción de términos de
indización. Hubo iniciativas para investigar la tipificación de estas partes,
como el estudio realizado por EURATOM, o las investigaciones de Anderson. El
resultado ha sido la determinación de las zonas más ricas en el documento
científico por parte de la norma ISO 5963- 1985 y UNE 50-121-91: El título; El
resumen de autor; Los subtítulos, sumario y tabla de materias; La
introducción y primeras frases de párrafos; Las conclusiones; Ilustraciones,
pág. 19
diagramas, tablas; Frases, palabras destacadas por el autor en el texto, o
rasgos especiales.
Establecidas las zonas ricas, se ha procedido a jerarquizarlas, bien por la
calidad de los términos, bien por la economía temporal en la detección de
términos. En este sentido, Gil Leiva y Rodríguez Muñoz realizaron un ensayo
que demostró cómo el resumen era la zona más rica en extracción de términos,
complementado de forma gradual por el título, la introducción del texto, sus
epígrafes y las conclusiones.
La jerarquización por economía de tiempo es más compleja por depender de
los caracteres de la unidad informativa, los tipos y necesidades de los usuarios,
la profesionalidad de los indizadores, el tipo documental y la complejidad de
la información contenida en el documento. Ecos de resultados de experimentos,
en este sentido, señala García Gutiérrez, mientras el establecimiento de pautas
cronológicas óptimas es señalado por Farrow.

2.4 CARACTERES DE LA INDIZACIÓN.


Son aquellos aspectos que determinan la eficacia y eficiencia de la indización
en sus cometidos de almacenamiento y recuperación:

2.4.1 Exhaustividad, precisión y relevancia.


La Exhaustividad se relaciona con la cantidad de conceptos que caracterizan
el contenido íntegro del documento, por lo que en indización se identifica con
el número de términos asignados al documento. Esta identificación, empero,
es parcial y confusa en opinión de Soergel. El autor considera que el número
de descriptores o términos empleados por documento no debe ser el único
valor determinante en el grado de Exhaustividad, sino que debe unirse a otros
tres factores: el grado de precoordinación de los descriptores, la corrección
de la indización y el criterio de indización con una exigencia de mayor o
menor precisión.
En una búsqueda la Exhaustividad se ve reflejada en el cociente de considerar
el número total de documentos pertinentes hallados en relación al número
total de documentos incluidos en toda la colección documental.
Según se ha apuntado, la Exhaustividad tiene como elemento objetivamente
condicionante la precisión, a su vez íntimamente unida a la relevancia. Se
entiende por relevancia la carga de significación del descriptor respecto a los
conceptos registrados, capaz de reducir la ambigüedad y evitar la redundancia
a través de la entropía. La precisión, pues, resulta del cociente de considerar
el número de documentos relevantes hallados en una búsqueda en relación al
número total de documentos obtenidos en esa misma búsqueda.
Exhaustividad y precisión están íntimamente relacionados por ser
inversamente proporcionales. Una correcta relación entre ambas procura la
pertinencia, esto es, el ajuste preciso a la demanda concreta del usuario.

2.4.2 Especificidad y corrección.


En opinión de van Slype la especificidad estima la calidad en la selección de
pág. 20
los términos que equivalen a los conceptos presentes en los documentos,
mientras para Rowley consiste en la libertad que permite el sistema para ser
preciso sobre el tema de un documento. La especificidad puede exigir la
combinación de descriptores, pero siempre como constantes determinantes,
la entropía y la relevancia. La corrección de la indización se relaciona
directamente a la ausencia de dos errores: omisión de un término necesario,
que produce el silencio o sombra documental; inclusión de un término
innecesario, que provoca el ruido documental.

2.4.3 Consistencia o coherencia


Términos utilizados indistintamente por la norma UNE 50-121-91. La
consistencia hace una referencia explícita a la subjetividad propia de la
indización en la determinación del grado de concordancia en la asignación de
términos a un documento entre varios indizadores (consistencia
interindizadores) y en distintos momentos por el mismo indizador (coherencia
intraindizador).
La consistencia, pues, ha sido definida por Zunde y Dexter como el grado de
concordancia en la representación de la información esencial de un
documento, por medio de un conjunto de términos de indización seleccionados
por cada uno de los indizadores de un grupo. Existen numerosos trabajos que
han calculado la consistencia en distintos momentos, unidades informativas,
tipos documentales y áreas de conocimiento, siendo la tónica general que
la consistencia no baje del 25% ni supere el 60%. La inconsistencia, pues,
no es una anomalía en la indización.
Salton y McGill, en un paso adelante, han propuesto una fórmula para averiguar
la consistencia entre la indización manual y la automática, expresada:
Ci = Tco

(A+B)-Tco

De donde Ci es la consistencia, Tco el número de términos comunes asignados


por los indizadores, A el número de términos asignados por el indizador 1 y B
el número de términos asignados por el indizador 2.
Se han tipificado los factores que alteran la consistencia especialmente: la
cantidad de términos asignados; el tipo de vocabulario utilizado, en su calidad
y coordinación; el tamaño del vocabulario, pues cuanto mayor y más sutil en
matices, más fomenta la incoherencia; la naturaleza temática de la
documentación, en razón de la complejidad terminológica.

2.4.4 La calidad.
En indización es éste un aspecto que sólo se mide por los resultados. Fue
Léonard quien concibió la calidad en indización en términos de eficacia en la
recuperación, como un sistema de evaluación sobre la capacidad de recuperar
lo que se busca y evitar lo que no se busca. El valor de la eficacia en la
evaluación de la calidad derivó a su relación con la coherencia: en opinión de
Léonard, a mayor grado de coherencia entre indizadores y respecto a los
pág. 21
usuarios, mayor eficacia en la recuperación, resultando una indización de
calidad. En realidad, la calidad es más compleja. Rolling definió la calidad en
indización como el grado de concordancia entre términos asignados por el
indizador y un grupo de términos óptimos, por lo que es imprescindible un
método de consenso entre el indizador y los especialistas. En una metodología
muy diferente, White y Griffith consideraron la calidad en la indización por
tres características: el alcance con que los términos unen ítems relacionados;
el alcance con que los términos discriminan entre los conjuntos de una base
de datos; el alcance con que los términos discriminan entre distintos
documentos.
La complejidad de la calidad en indización deriva del hecho de que la
recuperación debe englobar en una evaluación la pregunta, búsqueda y
respuesta documentales, cada una con diseños y estrategias diferentes. Las
tasas para medir el grado de Exhaustividad, esto es, la relación entre el
número de documentos recuperados y el número total de documentos
relevantes en la colección, considera también:

Precisión = nº de documentos recuperados relevantes.


-----------------------------------------------------
nº total de documentos recuperados.

Ruido = nº de documentos no relevantes extraídos


-------------------------------------------------
nº total de documentos extraídos.

Silencio = nº de documentos relevantes extraídos.


------------------------------------------------
nº de documentos relevantes existentes

3 EL TESAURO
3.1 Concepto y definición
En el siglo XX, después de los trabajos de H. P. Luhn y los unitérminos de
Taube, la evolución conceptual de thesaurus fue muy rápida. En los años 50
Howerton definió tesauro como una lista autorizada de términos que conduce
de unos conceptos a otros mediante relaciones heurísticas. Desde 1959 se
inicia una fuerte proliferación de tesauros a causa del desarrollo de un
vocabulario para la recuperación de la información en la organización Du
Pont, seguido de la edición de dos tesauros muy difundidos: Thesaurus of
ASTIA descriptors (1960) y Chemical Engineering Thesaurus (1961). En España
su impacto comenzó a ser evidente a finales de los 70, en los encuentros
REUNIBER 78, imponiéndose paulatinamente la voz tesauro.

pág. 22
En los 70 G. Wersig definió tesauro como lista de términos prefijados,
extraídos del texto documental, que representan conceptos y permiten
posteriores combinaciones. Durante los años 80 se produjo la relación
definitiva del tesauro con la Terminología: H. Felber lo definió como el
instrumento para controlar un lenguaje específico de indización y establecer
las relaciones entre conceptos. La automatización impulsó decididamente los
tesauros dentro de la Documentación, como lenguaje convenido y controlado
para que los términos presenten una clara univocidad y en el que se ofrece la
posibilidad de esos términos tanto para analizar como para buscar el
contenido concreto de los documentos. Los tesauros alcanzaban así una
posición muy relevante entre los vocabularios controlados por su coherencia
en la indización y la posterior recuperación documental.
Los tesauros comenzaron a experimentar, pues, la necesidad de una
codificación, resultado de la cual fue la norma ISO 2788-1986 y su
correspondencia española UNE 50-106-1989.
Los tesauros, como tantas otras cosas, han ido definiendo su espacio
conceptual en oposición a otros instrumentos documentales:
 Se distinguieron de las obras de referencia por no definir sino
contextualizar y no admitir acepciones sino términos compuestos.
 Se distinguieron de los encabezamientos de materias por su estructura
precoordinada.
 Se distinguieron de los índices por establecer relaciones semánticas.
 Se distinguieron de las listas de autoridades y descriptores libres por
ser cerrados y codificados.

pág. 23
Las Directrices para el establecimiento y desarrollo de los Tesauros
monolingües dentro del PGI de la UNESCO, así como las normas ISO y UNE han
definido tesauro: Es un lenguaje de indización controlado y dinámico, cuyos
términos están controlados semántica y jerárquicamente, que se refiere a un
campo específico del conocimiento y sirve como instrumento para el
almacenamiento y posterior recuperación de información, sobre todo en los
modernos sistemas automatizados.
Su espacio es, sin duda, el campo semántico, el significado de las unidades
lingüísticas exclusivamente, para determinar el contenido informativo del
documento o de una consulta. La determinación del significado no se hace por
definiciones, sino mediante la confrontación de campos semánticos, entendidos
como el conjunto de unidades léxicas ligadas por una estructura de relaciones
de significado, que permite precisar la significación de cada una de las
unidades. Las funciones son: normalización, inducción y representación del
contenido.
Los Tesauros, en tanto que Lenguajes Documentales, precisan de un sistema
de significación, cuyos elementos son un léxico (con términos depurados), una
red paradigmática (con relaciones esenciales y estables entre los descriptores,
diseñando una red organizada de modo lógico – semántico, próxima a una
clasificación) y una red sintagmática (con unas relaciones contingentes, válidas
sólo en un contexto, a partir de unas reglas sintácticas, destinadas a coordinar
descriptores).
En el cumplimiento de este objetivo y funciones, la Terminología se muestra
como un óptimo instrumento para los Lenguajes Documentales por ser
especialmente útil en:
 La elección de palabras clave para la identificación temática de un
documento.
 La organización de estructuras funcionales de concepto.
 La redacción de definiciones de conceptos y de notas de alcance.
 El análisis de los procesos de incorporación de neologismos.

La Terminología cumple una doble función: representar el conocimiento


mediante el trabajo descriptivo (ilustración del discurso) y transmitirlo
mediante el trabajo prescriptivo (garantiza unidades unívocas de expresión y
comunicación). Es en el trabajo prescriptivo donde la terminología actúa más
en la normalización, perspectiva muy útil en Documentación.

3.2 Construcción y Unidades del tesauro


Determinada exclusivamente por los términos incorporados al tesauro y, tras
un proceso de selección y normalización, convertidos en únicos instrumentos
de representación, control y combinación. Términos y sus normas para la
incorporación fundamentan la composición del tesauro:

pág. 24
3.2.1 Normativas. Gestión de términos candidatos a descriptores.
Destinadas a reglamentar la presentación de las unidades léxicas, como su
función en el tesauro:

Presentación. Procederemos a una explicación concreta de aplicación de las


normas ISO y UNE:
 Mayúsculas para descriptores y minúsculas para no descriptores.
 Preferencia por los sustantivos y frases sustantivadas. Casuística sobre
formas de representación conceptual, vulgarismos, localismos,
barbarismos, variedades, transliteraciones.
 Casuística en torno a los adjetivos, adverbios y verbos.
 Casuística en torno a abreviaturas y acrónimos.
 Casuística respecto al singular y plural.
 Casuística respecto a la unión semántica de un núcleo y un
modificador, mediante la yuxtaposición simple, los enlaces
preposicionales, los onomásticos compuestos y los adjetivos
significantes.

Control semántico. Orientado esencialmente a la consecución de una unión


inequívoca entre descriptor – concepto, para lo que se arbitran dos sistemas de
control:
 Introducción de un calificador entre paréntesis.
 Asociación del término polisémico a otro por relación, mediante el
signo TR.
 Sintagmatización.
 Uso de un sinónimo mediante el símbolo use.

3.2.2 Selección terminológica y registro de términos.


Los términos transformados en candidatos a ser unidades léxicas constitutivas
del tesauro responden a tres categorías:
 Palabras herramienta. Inútiles por sí solas en una recuperación por su
amplia significación, pero muy eficaces como núcleos o determinantes
al ser combinados con otros descriptores.
 No descriptor. Término no preferente pero equivalente, útil para elevar
la precisión y exhaustividad. Realiza reenvíos a su descriptor con la
indicación use.
 Descriptor. Palabra o grupo de palabras incluidas en un tesauro y
escogidas de entre un conjunto de términos equivalentes para
representar sin ambigüedad una noción contenida en un documento o
en una petición de búsqueda.

pág. 25
3.2.3 Fuentes de elaboración.
Infieren una labor muy sistemática por el alto valor de control terminológico
del tesauro. Deben contemplar una planificación, cuyos objetivos son:
Estudios de Oportunidad: Definición de mercado y análisis de la oferta
existente; Definición de los caracteres del tesauro respecto a los dominios a
cubrir, tamaño, idiomas, compatibilidad con otros tesauros, caracteres
formales y criterios de calidad; Elección de fuentes terminológicas; Proceso
de tratamiento en la construcción y presentación; Responsables y coste.
Debe contemplar dos fases:
Delimitación del campo terminológico. Acotando un lenguaje
específico, estableciendo un índice de profundidad media y diseñando
un mecanismo de actualización.
De término a descriptor. Transformación que reclama como tareas
propias: Recolectar términos en lenguaje natural del dominio elegido,
como palabras clave, por su alto contenido semántico; Comparación
con otros lenguajes documentales existentes afines; Depuración
semántica mediante fuentes terminológicas específicas, asesoría de
especialistas y usuarios; Anotación contextual consignando la fuente del
término, origen lingüístico, ortografía, colectivos que lo utilizan,
evolución, frecuencia de uso; Test de comprobación en la
representación y recuperación, interrogando bases de datos
terminológicos o del dominio elegido.

3.2.4 Construcción del Tesauro: relaciones y estructura


Es una operación que determinará la función del tesauro y define su carácter
coherente y combinatorio:
- Relaciones jerárquicas. Organizan las relaciones paradigmáticas para
ampliar o reducir un campo de búsqueda, a partir de una explícita
definición de los macrodescriptores. Tres categorías:
a. Jerarquía genérica. Especies, objetos y clases, acciones y
propiedades, conceptos y efectos, profesionales y sus clases.
Serán precisos ejercicios prácticos e ilustraciones.
b. Jerarquía partitiva. Órganos, topónimos, ciencias y disciplinas,
organigramas. Serán precisos ejercicios prácticos e ilustraciones.
c. Jerarquía enumerativa. Indicación precisa y consecutiva de
todas las partes. Serán precisos ejercicios prácticos e
ilustraciones.
- Relaciones asociativas. Establecen las pasarelas hacia intereses
contextuales y reflejan la transversalidad del conocimiento. Las normas
estipulan hasta catorce posibilidades en la relación.
- Relaciones de equivalencia. Destinadas a fomentar la coherencia y
exhaustividad del tesauro. Se abordarán los accidentes lingüísticos y los
pág. 26
modos que las normas contemplan para la desambiguación.
- Notas de Aplicación. Aumentan la pertinencia de la recuperación al
precisar el sentido del descriptor en el contexto del tesauro. Definen el
descriptor en una microdisciplina y aclaran su uso en el tesauro.

3.2.5 Tipos de Tesauro


Tesauros sistemáticos. Siguen un sistema de clasificación para organizar los
campos temáticos, adaptándose a los esquemas clasificatorios clásicos del
conocimiento científico. Serán ilustrados con ejemplos concretos.
Tesauros facetados. Basado en las facetas, aspecto o naturaleza propios del
documento. Característica esencial de la clasificación facetada es dividir los
descriptores por facetas, que representa sólo una característica utilizada al
mismo tiempo para producir grupos homogéneos mutuamente excluyentes. Es
un método analítico – sintético usado por primera vez por J. Kaiser, luego
desarrollado por S. R. Ranganathan para la Colon Classification. Las facetas se
subdividen en grupos identificados por una notación en bloques de tres dígitos
o letras. Es muy común utilizar las facetas en tesauros formalmente
sistemáticos. Serán ilustrados por ejemplos concretos.
Ámbito.
- Macrotesauros, cuando acoge nociones muy genéricas para ser
aplicadas en varias áreas de conocimiento.
- Microtesauros, con descriptores seleccionados para dar una
versión resumida del tesauro.

Lengua.
- Monolingüe, expresión de los descriptores en una sola lengua.
- Multilingüe, utilizan varios idiomas para los descriptores, pero
no actúan como diccionarios por no definir y por establecer
relaciones biunívocas entre las expresiones del descriptor entre
los diferentes idiomas.

Área.
- Sectorial, por limitarse a un dominio del conocimiento.
- Temático, reagrupa los descriptores por dominios de
conocimiento mediante relaciones jerárquicas.

pág. 27
3.2.6 Gestión y mantenimiento de Tesauros
La elaboración del tesauro es muy costosa y su correcta manipulación optimiza
el trabajo del indizador y la recuperación por el usuario. Aplicado sobre un
área profesional o de conocimientos específicos y para un lenguaje
especializado, el continuo progreso del saber puede transformar el tesauro en
inconsistente e inadecuado. Para evitarlo, el tesauro contempla una
flexibilidad para su actualización, encomendada a un responsable editor,
asistido por un pequeño grupo de lexicógrafos:

Detección de problemas
a) El indizador no haya un descriptor entrópico y pertinente. Debe crear,
entonces, una fiche de descriptor candidato para ser sometido a pruebas
de forma y frecuencia de uso.
b) El usuario logra una recuperación poco exhaustiva y pertinente al
interrogar por un descriptor.

Sistema de control. Posible mediante el diseño de un fichero maestro para


comprobar la consistencia y aceptabilidad de los descriptores, aparición de
sinónimos, frecuencia de uso, historial de acepciones. El control se aplicará:
 Enmienda de descriptores: por errores.
 Estatus: cambio de posición jerárquica del descriptor.
 Eliminación: por redundancia o desuso.
 Adición de nuevas relaciones.
 Adición de nuevos descriptores.
 Enmienda de la estructura existente.

Compatibilidad. Carácter tanto más perentorio por el dinamismo y la


transversalidad del conocimiento en la Sociedad de la Información. Existen
tres posibilidades:
Cooperación. Enlaces entre tesauros, bien a través de lenguajes intermedios,
bien a través de mapas de enlaces por encabezamientos de materia.
Integración. Un tesauro, mediante fusión, se transforma en micro de otro.
Todos los términos se ordenan alfabéticamente con indicación de las
relaciones en cada uno de los tesauros refundidos.
Metatesauros. Realizan las búsquedas de un descriptor detectando su
presencia en distintos tesauros vertidos en la red, para detectar su
contextualización en cada uno de los tesauros en los que está presente.

pág. 28
3.2.8 Presentación y aplicabilidad del Tesauro

Partes
Introducción. Se hacen explícitas la acotación temática, la metodología y
reglas de uso, las fuentes y bibliografía.
Estructura. Acoge la clasificación general, la representación jerárquica, la
representación alfasistemática, la representación gráfica, los índices
permutados.
Índices auxiliares. Con la ordenación alfabética o jerárquica de
identificadores y la terminología complementaria. Es muy útil dar las pautas
para la edición de tesauros, perfectamente sistematizadas por E. Currás.
Estilos.

 Alfabético, los descriptores se ordenan alfabéticamente, consignando


en todos todas sus relaciones.
 Sistemático, suele reunir la organización temática con la facetada.
 Gráfico, ilustra comprensivamente las relaciones de los descriptores.
Cumple unas reglas básicas de ejecución: el macrodescriptor tendrá
una posición evidente y la señalización de dependencias será muy
patente. Existen diferentes modos de expresión gráfica: arborescente,
cuadrícula, recuadro, espiral o concéntrica, poligonal, flechada.

4 EL RESUMEN DOCUMENTAL
4.1 Concepto y Funciones
Cuando se define como Ciencia la Documentación en el primer tercio del siglo
comenzaron las precisiones sobre el Resumen Documental: no consiste en
condensar el texto (técnica de la Lingüística), por cuanto debe incorporar el
contexto (auxilio de la Lógica, Sicología, Sociología, Teoría de la Comunicación
y las Ideas).
El elemento básico del Resumen documental son las unidades semánticas. Se
relacionan con la metodología del resumen: en una primera fase la Lengua
apoya la comprensión de la estructura superficial y profunda del texto, luego
se aborda la comprensión de las palabras (análisis componencial) y de las
frases (análisis de predicados), para luego acudir a la secuencia de frases, que
detecta la coherencia lineal del discurso y las relaciones semánticas, llegando
finalmente a la macroestructura, que según Van Dijk es la representación
abstracta de la estructura que articula el texto y que condiciona el nivel
profundo de la significación del texto, en tanto que la microestructura
determina la comprensión superficial. Este método ha tenido como auxiliares
el Estructuralismo para analizar las unidades mínimas del lenguaje, la
Gramática Generativa como investigación del sentido del texto y la Gramática
Textual por sus principios asentados en la Lógica filosófica y la Semántica.
El Resumen Documental debe entenderse, pues, el conjunto de operaciones
pág. 29
que transforman las macroestructuras del texto para explicar la información
sustancial del documento mediante la retextualización de su mensaje. Resumir,
pues, no es extraer (esto es cita textual) ni anotar (nota informativa) ni sumariar
(elaboración de epígrafes) ni compendiar (registro identificativo) ni hacer
sinopsis (resumen de autor).
Las funciones del Resumen Documental, desde esta óptica, son:
 Reproducir el mensaje original de forma breve y completa.
 Evaluar el contenido documental.
 Facilitar la comprensión del texto original.
 Sustituir un original con problemas de acceso lingüístico, de difusión...
 Transcodificar documentos no textuales (gráficos, audiovisuales...)

El Resumen Documental reclama un análisis de contenido, que implica tres


operaciones:
 Reconocimiento, para identificar el asunto, ordenar y organizar las
ideas del mensaje.
 Reducción, para la interpretación sustancial del texto.
 Representación, nueva redacción para la comunicación y difusión del
mensaje sustancial del texto.

Estas tres operaciones se traducen en tres fases de elaboración con sus reglas:
 Lectura analítica. Se detecta el hilo discursivo del texto, evidenciando
las etapas del razonamiento mediante los conectores lógicos y
lingüísticos.
 Estrategias de reducción. Subrayan las redes semánticas del texto, con
sus palabras clave, para luego organizarlas en un organigrama
clasificador que articule el nuevo texto resumido.
 Reglas básicas de representación. Resumir es una técnica intelectiva,
por lo que no existen pautas normalizadas, que tienen como
propiedades:
o Entropía para evitar redundancias discursivas.
o Pertinencia, para adecuarse al nivel del usuario, el método
homogéneo de la unidad informativa y la objetividad.
o Coherencia, reconstruyendo con lógica las ideas principales.
o Corrección lingüística, según las reglas del uso de la Lengua.
o Estilo, directo, claro, conciso, con frases cortas.
o Informatividad, con datos externos sobre la naturaleza y enfoque
del texto.

4.2 Tipología

Varias tipificaciones según la unidad informativa y sus usuarios:


Tipificación por profundidad en el Resumen Documental.
pág. 30
1ª Representación textual, que contiene todas las ideas del texto sin apenas
selección. Es muy fiel al original.
2ºRepresentación documental, identifica la idea principal del documento
(macroestructura) y luego la complementa con las ideas secundarias
(microestructura) para evidenciar la argumentación.
3º Representación macroestructural, que sólo recoge la idea principal.

Tipificación según los elementos constitutivos.


1º Por Estructura, pueden ser objetivos (recoge los conceptos significativos sin
interpretarlos), subjetivos (el analista evalúa el mensaje).
2º Por Origen, humano (resumen de autor o de experto analista) o automático
(mediante herramienta informática).
3º Por Finalidad, para Fuentes de Información (Boletines o Índices) o Sistemas
de Comunicación (para difusión de documentos no textuales).

Tipificación “Clásica”
1º Resumen informativo, representa la idea principal y la significación más
relevante de cada una de sus partes. Tienen alta capacidad informativa y
pueden sustituir al original. Recoge, pues, la macroestructura, la hipótesis de
partida, la argumentación ordenada de microestructuras que hacen referencia
al objeto considerado, proceso metodológico, resultados y conclusiones.
2º Resumen indicativo, se reduce a la expresión de la macroestructura, de tal
modo que ilustra el título del texto, con aclaraciones complementarias desde
el sumario del texto. Aborda conceptos genéricos y no se detiene en el
proceso argumental. Sirve de referencia y difusión del original.
3º Resumen de autor, realizado por el autor del texto, es simultáneo y
antecede al texto original. Tiene la ventaja del profundo conocimiento del
tema y son evidentes las aportaciones, pero es muy deficiente por
subjetividad y ausencia de técnica.
4º Resumen crítico, interpreta el original, evaluándolo, pero también
valorándolo. El analista juzga y opina sobre la oportunidad del texto.
Confronta aportaciones.
5º Resumen de extractos y modulares. Resumen automatizado con selección
de términos y sus párrafos de expresión. El autómata reconoce los términos o
descriptores y cohesiona en una cadena.

5 Tendencias
Están marcadas por la automatización de los procesos y por la forma de
representación de contenidos en web.
 En Indización, la automatización descansa sobre el progreso de los
modelos probabilísticos. Dado que la mayoría de los sistemas de
recuperación de información trabajan con lenguaje natural, producen
pág. 31
cierta imprecisión a la hora de acertar con aquellos documentos que
son relevantes para una petición concreta. Para evitarlo Robertson y
Sparck Jones se convencieron en 1976 de que era necesario establecer
un orden decreciente de importancia en los documentos recuperados
tras efectuarse esa demanda, iniciándose así los métodos de
representación probabilística. Cuando un usuario plantea una demanda
pretende obtener el conjunto de documentos de respuesta ideal, aquel
formado exclusivamente por los documentos que son relevantes a su
petición. De tal modo que el proceso de recuperación se centra en
especificar las propiedades que debe satisfacer ese conjunto de
respuesta ideal. El usuario valoraría entonces cuáles de los documentos
de la primera selección son relevantes y cuáles no tenían interés para
él. La información es pasada al sistema, que en repeticiones sucesivas
del proceso refina la búsqueda y se aproxima al conjunto ideal. Se
intenta estimar si hecha una consulta q y habiendo un documento
candidato d, existe la probabilidad de que el usuario juzgue que el
documento d es relevante. Las técnicas probabilísticas más frecuentes:
 Sistemas de ponderación para el filtrado de términos: buscan la
distribución de la frecuencia de las palabras para calcular sus pesos, ya
que no todas tienen la misma importancia en un texto. Es muy utilizada
la Indización Estadística de Términos por Frecuencias o IDF, sistema de
filtrado basado en la ley de Zipf que establece que las palabras de
mayor frecuencia no suelen ser significativas, ya que la importancia de
un término es proporcional a la frecuencia de ocurrencia en el
documento e inversamente proporcional al número de documentos en
que aparece. La técnica IDF dispone un sistema de pesos en función de
la frecuencia relativa de cada término en cada documento. Dado que la
ley de Zipf solo estaba pensada para filtrar términos simples, debe
complementarse con el Método N-grams que se aplica al tratamiento de
palabras compuestas. Este algoritmo trabaja de modo parecido al
anterior, pero calcula la frecuencia no sobre cada término o palabra
compuesta, sino con cadenas de caracteres de longitud predeterminada
y fija.
 Métodos de obtención de relaciones entre componentes: Para poder
representar adecuadamente la información y utilizarla de un modo
óptimo e inteligente es necesario clasificarla, de tal modo que se
establezcan relaciones entre los componentes que la definen y
describen. Existen numerosos y variados enfoques para realizar este
proceso: Clasificadores cienciométricos, el más conocido es el Método
de Chen, que analiza el uso de grupos de palabras que aparecen
simultáneamente en varios documentos; Algoritmos K-vecinos, cuyo
modo de funcionamiento del algoritmo consiste en mover cada vector
pág. 32
al cluster cuyo centroide esté más cercano al mismo, y actualizar
después los centroides de los clusters.

En los resúmenes documentales, los primeros métodos utilizados se


aplicaban a la superficie de las oraciones y se apoyaron principalmente en
criterios estadísticos: desde Luhn en 1958, la producción de extractos
consistió en leer cada oración y otorgarla una serie de pesos a partir de los
cuales calcular su importancia significativa. Así pues, la primera metodología
para acometer la automatización del resumen buscaba explotar los aspectos
léxicos del texto, quedando determinada por la frecuencia de aparición de las
palabras, desde la que se escogían los elementos representativos. Las
oraciones con mayor número de palabras específicas sobre un asunto dado
eran las que debían ser extraídas, al ser las que contenían mayor información.
Cuando incidían en una oración tres palabras clave, o dos, una de las cuales
ya hubiese aparecido en otra oración seleccionada, aquella se extraía. En un
segundo momento, de nuevo aparece la figura de Luhn: su propuesta buscaba
establecer una ponderación en las palabras que componían los textos. Para
ello otorgó valor 0 a las palabras vacías, mientras que las no vacías con una
frecuencia superior a un valor predeterminado eran consideradas
representativas del contenido del texto, y las restantes eran rechazadas. Otra
posibilidad consistía en medir la representatividad de las frases combinando la
frecuencia de aparición de las palabras y la proximidad entre ellas, para ello
se diseñaban clusters.
Edmunsen realizó varias experiencias en los años sesenta que aportaron
ingeniosas estrategias para lograr resúmenes automáticos, siempre desde la
expresión textual. Introdujo valores de diferenciación en las palabras de
acuerdo con la parte del documento de la que eran extraídas. Para hacerlo,
siguió un proceso que, primero, identificaba las palabras que componían un
texto; luego, ponderaba su valor de acuerdo con algún tipo de frecuencia de
aparición matizado mediante valoraciones específicas; y finalmente, extraía
del texto original las frases cuyo valor ponderado había obtenido mayor
puntuación, y con ellas conformaba el resumen. Otra opción, conocida por
Cue, suponía que la importancia de una oración dependía de la presencia en
ella de palabras a las que un diccionario había agregado una valoración, que
podía ser de carácter positivo (bonus), de carácter negativo (stigma), o de
consideración irrelevante (null). El valor de la oración se obtenía con la suma
de los valores indicadores (cue) de las palabras que constituyen una oración.
Un nuevo camino se abrió al seguir las locuciones indicadoras que el propio
texto manifiesta. El método fue ideado por Paice al observar cómo los autores
suelen avisar al lector del inicio de las oraciones y párrafos que anuncian la
presencia inmediata de información importante en el texto, palabras y frases
señales (Es importante...; El objeto principal del artículo estriba...; El
propósito de la investigación consiste en...; La metodología utilizada es...; La
conclusión de nuestro razonamiento es...; etc).
En Tesauros, han comenzado a responder en este nuevo escenario,
incorporando nuevos aspectos que los amplíen mediante la creación de
distintas “vistas” (facetas o metadatos), la interacción con el usuario
reflejada en los tesauros de usuario, como también acudiendo a una versión
pág. 33
online que facilite su compatibilidad con otros tesauros para facultar la
cooperación, integración o generación de metatesauros, pero especialmente
la investigación se ha orientado a realizar aproximaciones hacia la generación
automática de tesauros, con auxilio de los métodos estadísticos y lingüísticos
de indización automática, el modelado de sistemas propios de la ingeniería
del software, y técnicas de Procesamiento de Lenguaje Natural.
Un modelo derivado tanto de los modelos estadísticos (representaciones
vectoriales), como lingüísticos, son los tesauros conceptuales, que buscan
hacer representaciones diagramáticas del conocimiento mediante diferentes
lenguajes visuales (representaciones gráficas de los conceptos y de las
relaciones entre ellos). Los conceptos son los nodos y las relaciones son los
enlaces. Son eficaces para organizar nueva información e integrarla en el
conocimiento existente, pues su construcción permite reconocer nuevas
relaciones entre conceptos y a refinar la comprensión de las existentes. La
investigación, empero, no sólo se aplica en los aspectos tecnológicos, sino que
ha iniciado una vía para otorgar a los tesauros una dinamicidad que reclaman
los documentos virtuales e interactivos: Fomento de la potencialidad
asociativa, según se evidencia en los trabajos de la ALA desde 1999, que
culminaron en las propuestas de nuevas asociaciones y tipificaciones de
relaciones asociativas, que anotó D. Tudhope en 2001, tendentes a controlar
con eficacia la transversalidad e hipertextualidad; Incorporación de categorías
morfológicas alternativas al sustantivo como descriptores, particularmente los
verbos.
Junto con la asociatividad e iconicidad, los tesauros y todos los gestores de
contenidos experimentan una fuerte orientación hacia su transformación en
“vocabularios” y esquemas semánticos para la representación en la Web. Un
instrumento paradigmático es SKOS. Tiene sus orígenes en el proyecto europeo
SWAD-Europe: http://www.w3.org/2001/sw/Europe/. SKOS Core (Simple
Knowledge Organization System) es un modelo para la codificación de
vocabularios basado en RDF. Orientado, pues, a la web semántica, este modelo
cobra plena eficacia en su capacidad para vincular conceptos, de manera
que se pueden llegar a formar redes semánticas que permitan la navegación
entre sistemas. SKOS tiene dos formas básicas de establecer relaciones entre
conceptos procedentes de diferentes vocabularios (se habla mejor de
“esquemas de conceptos”), cada una con una aplicación diferente (Isaac y
Summers, 2008):
 Referenciando el vocabulario en el que está incluido el valor o para el
que se ha desarrollado localmente una extensión (propiedad
skos:inScheme).
 Mapeo de vocabularios, haciendo explícita la relación existente entre
los conceptos.

La mejor forma de saber qué es y para qué sirve SKOS es acudir al documento
que lo describe, la Recomendación W3C recientemente publicada el 18 Agosto
de 2009, tras un proceso de elaboración iniciado en el año 2005. Está disponible
para su consulta en la dirección web http://www.w3.org/TR/skos- reference/

pág. 34
Este documento define el Sistema Simple de Organización del Conocimiento
(SKOS), un modelo de datos común para el intercambio y enlazado de los
sistemas de organización del conocimiento a través de la Web. Muchos de los
sistemas de organización del conocimiento, tales como tesauros, taxonomías,
esquemas de clasificación y sistemas de encabezamiento de materias,
comparten una estructura similar, y se utilizan en aplicaciones similares. SKOS
capta gran parte de esta semejanza y la hace explícita, para hacer posible el
intercambio de datos y de tecnología entre distintas aplicaciones.
El modelo de datos SKOS proporciona un medio estándar y de bajo coste para
la conversión de los sistemas de organización de conocimiento existentes a la
Web Semántica. SKOS también ofrece un lenguaje ligero e intuitivo para
desarrollar y compartir nuevos sistemas de organización de conocimiento. Se
puede usar sólo o en combinación con los lenguajes formales de representación
del conocimiento, tales como el Lenguaje de Ontologías Web (OWL).
Los tesauros se han ido complementando con gestores de contenidos web:
topic maps, ontologías, herramientas 2.0.

pág. 35
ANEXO I: La norma ISO 25964
La norma ISO 25964: Tesauros e interoperabilidad con otros vocabularios,
actualiza y reemplaza a las anteriores normas ISO 5964:1985 e ISO 2788:1986.
Esta revisión era necesaria en el estándar ISO de los tesauros debido a los
nuevos modelos de indización y recuperación de la información.
Interesa conocer este documento ya que en él se resume en gran medida el
estado del arte en la construcción de vocabularios controlados para la
indización.
La ISO 25964 Information and documentation – Thesauri and interoperability
with other vocabularies cuenta con 2 partes:
- Parte 1: Thesauri for information retrieval, es decir, tesauros para la
recuperación de información. Se publicó en 2011.
- Parte 2: Interoperability with other vocabularies, esto es, la
interoperabilidad con otros vocabularios. Se publicó en marzo de 2013.

Parte 1
La primera parte de la norma ofrece recomendaciones para la construcción,
desarrollo y mantenimiento de tesauros monolingües y multilingües destinados
a aplicaciones de recuperación de información, e incluye recomendaciones
funcionales para el mantenimiento del software del tesauro,
independientemente de los medios utilizados (texto, sonido, imagen).
Los primeros capítulos de la norma especifican la terminología utilizada en la
construcción de los tesauros – conceptos y términos – para la recuperación de
la información.
El capítulo 9 se dedica a la relación de equivalencia interlingüística respecto a
la construcción de los tesauros multilingües. Se establecen cuatro grados de
equivalencia – exacta, inexacta (cuasiequivalencia), parcial (genérico-
específica) y la no equivalencia –; también se tratan los problemas derivados
del lenguaje natural (sinónimos, cuasisinónimos, homógrafos y la ausencia de
términos equivalentes en una o más lenguas en el capítulo 8 de la norma.
La construcción, mantenimiento y uso de los tesauros se aborda en el capítulo
13, donde se especifican como deben de ser la planificación, las primeras
fases de compilación, la gestión, el mantenimiento, la difusión y actualización
de los tesauros. A su vez, incluye las políticas previas, la formación y
conservación de los equipos de trabajo y los recursos necesarios.
El capítulo 14 de la norma menciona las recomendaciones y requisitos mínimos
que debe cumplir un software de gestión de tesauros.
La norma también expone formatos de intercambio para la interoperabilidad
entre las diferentes aplicaciones informáticas. En concreto, se mencionan los
formatos MARC (Machine-Readable Cataloguing, - Catalogación Legible por
Máquina), conjunto de estándares basados en la Norma ISO 2709, para el
intercambio de “registros de autoridad”, aquellos procedentes de tesauros u
otros tipos de vocabularios controlados. Los más relevantes son: el MARC21
pág. 36
Format for Authority Data y MADS (Metadata Authority Description Schema –
Esquema de Descripción de Metadatos de Autoridad) un formato XML
compatible con MARC21 para el registro de autoridades. La norma también
menciona otros formatos – SKOS, Zthes – este último desarrollado originalmente
con perfil de aplicación Z39.50 y ampliado a SRU (search / retrieve via
URL) y el formato DD 8723-5, desarrollado para la norma británica,
proporciona un esquema XML para el intercambio de tesauros conformes con
BS 8723.

Parte 2
La segunda parte de la norma ISO 25964 se aplica a los tesauros con otros
sistemas de organización del conocimiento en el contexto de la
interoperabilidad en internet y la web semántica. Se describen, comparan y
contrastan los elementos y características de estos vocabularios que resultan
cuando se requiere interoperabilidad, además de proporcionar
recomendaciones para el establecimiento y mantenimiento de mapeos entre
múltiples tesauros u otros tipos de sistemas de organización del conocimiento.
La propia norma menciona el objetivo principal de la interoperabilidad entre
vocabularios durante la recuperación de la información es hacer posible que
una expresión formulada con un vocabulario pueda ser convertida en (o
complementada por) una expresión correspondiente en uno o más vocabularios
distintos. Esto se aplica tanto si los vocabularios usan el mismo idioma como
si no. La expresión en cuestión puede ser tanto una petición de búsqueda
como una parte de los metadatos asociados a un documento. En ambos
casos, el mapeo constituye el paso clave.
Las relaciones semánticas entre vocabularios se denominan mapeos, y
cualquier tipo de relación puede ser definida y aplicada como un mapeo.
Respecto a los tesauros existen tres principales tipos de mapeo – equivalencia,
jerárquico y asociativo –.
El uso de mapeos en recuperación de la información se detalla en el capítulo
12 de la norma, y detalla que existen dos fases principales en las que puede
usarse el mapeo entre vocabularios controlados como parte del proceso de
indización o en el momento de la búsqueda.
Los capítulos 17 al 24 corresponden a la interoperabilidad de los tesauros con
cada uno de los sistemas de organización del conocimiento más importantes.
Se da prioridad a los usados para clasificar e indizar recursos, a saber: esquemas
de clasificación (clasificaciones bibliográficas y archivísticas), taxonomías,
sistemas de encabezamientos de materia, ontologías, terminologías, listas de
control de autoridades y anillos de sinónimos. Cada capítulo proporciona una
breve descripción informativa de las características clave del vocabulario, sus
componentes y relaciones semánticas, con el fin de proporcionar un análisis y
poner en contexto los requisitos de interoperabilidad y recomendaciones para
su implementación.

pág. 37
ANEXO II: LENGUAJES DOCUMENTALES Y SKOS
SKOS (Simple Knowledge Organization System) constituye una de las
especificaciones más relevantes en el área de la Web Semántica para la
actividad de bibliotecas y centros de documentación. Establece un puente
entre las tendencias actuales de la web semántica, y las prácticas
tradicionales para el control del vocabulario y la organización y
representación del conocimiento.

Origen y motivación
SKOS se publicó como recomendación W3C el dieciocho de agosto de 2009 por
parte del Semantic Web Deployment Working Group del W3C. El primer
borrador de trabajo se distribuyó en enero de 2008. Ofrece un modelo para
representar la estructura básica y el contenido de los esquemas conceptuales
de tipo tesauros, sistemas de clasificación documental, listas de
encabezamientos de materia o sistemas similares como las taxonomías y
folksonomías.
En la documentación oficial de SKOS se habla de sistemas de organización de
conocimiento semi-formales para diferenciarlos de las ontologías diseñadas
para soportar procesos de razonamiento automático complejos. SKOS está
orientado a la indización y a la recuperación de información documental,
frente a otros sistemas como OWL orientados a procesamientos más
complejos.
SKOS ofrece un esquema para codificar vocabularios controlados y lenguajes
de indización en XML. Se plantea como un método para migrar, con un bajo
coste, lenguajes de indización disponibles al entorno de la web semántica.
SKOS no debe considerarse únicamente como una forma de publicar lenguajes
de indización, sino como un mecanismo para representar relaciones entre
distintos esquemas conceptuales. En la recomendación del W3C también se
señala la necesidad de aprovechar la experiencia de la comunidad bibliotecaria
en la organización del conocimiento, dentro de las iniciativas para la web
semántica.
Entre las distintas iniciativas que han precedido a SKOS y que compartían el
mismo objetivo se encuentran LIMBER (Language Independent Metadata
Browsing of European Resources), CERES (California Environmental Resources
Evaluation System), GEM (Gateway to Educational Materials), CALL (Center for
Army Lessons Learned) Thesaurus, ETT (European Treasury Browser) o
KAON/AGROVOC. A esta lista hay que añadir el ADL Thesaurus Protocol.

Características y ventajas de SKOS


SKOS está basado en XML y en RDF, temas que se tratarán con profundidad en
el Máster. SKOS no tiene como finalidad representar una visión compartida de
la realidad, como sí sucede con las ontologías; su representación de la realidad
está acotada a los términos procedentes de un vocabulario controlado
específico y viene condicionada por la finalidad y el uso previsto para éste.
Sus principales características son éstas:

pág. 38
• Los conceptos o “unidades de pensamiento” se identifican mediante
URI, a los que se pueden asignar distintas etiquetas en lenguaje
natural, en uno o en distintos idiomas.
• Los conceptos se agrupan en “esquemas de conceptos”.
• Permite asociar notas aclaratorias a los conceptos
• Permite relacionar los conceptos, mediante las relaciones
jerárquicas y asociativas características de los lenguajes de
indización.

Las ventajas de SKOS incluyen el hecho de tratarse de un modelo orientado a


conceptos, y no a términos, con opciones que añaden valor frente al modelo
tradicional de los tesauros como la capacidad de establecer relaciones entre
unidades léxicas o "etiquetas" y poder ampliar las relaciones básicas de un
vocabulario controlado tradicional. SKOS también incorpora funciones
avanzadas que permiten establecer relaciones entre esquemas de conceptos,
y agrupar éstos en colecciones.

Estructura de SKOS
Esta sección recoge una descripción de los principales elementos definidos en
SKOS.
Cada concepto se identifica mediante un elemento <concept>.
Las etiquetas lingüísticas asociadas a los conceptos se representan mediante
elementos <prefLabel>, <altLabel> o <hiddenLabel>.
• La primera señala el término autorizado
• La segunda términos alternativos no autorizados (sinónimos, cuasi-
sinónimos, formas abreviadas o desarrolladas para siglas, etc.)
• La tercera se utiliza para designaciones que se quieren registrar
pero que deben permanecer ocultas para el usuario del sistema.
<hiddenLabel> se usará para facilitar la recuperación, de forma que
el sistema informático pueda buscar también por estos términos
aunque no se presenten al usuario.

Las etiquetas asignadas a un concepto irán acompañadas de un atributo que


indicará su idioma (un concepto sólo podrá tener un único término autorizado
en el mismo idioma).
Sobre las relaciones entre términos, SKOS define los siguientes elementos:
 <broader>
 <narrower>
 <related>

<broader> dirige desde un concepto a otro con un significado más genérico.


<narrower> sigue el orden inverso, y dirige de un concepto a otro más
específico. Siguiendo las reglas usadas en la construcción de lenguajes de
pág. 39
indización, las relaciones genéricas o específicas corresponden a casos en los
que exista una relación de tipo “A es un tipo de B”, “A es una instancia de B”,
o “A es parte de B”, es decir, relaciones genérico-específicas o género-
especie y relaciones parte-todo.
<broader> y <narrower> son relaciones recíprocas pero no son transitivas de
forma general, ya que hacerlo así podría llevar a inconsistencias. Para evitar
posibles ambigüedades se han definido las relaciones <broadertransitive> y
<narrowertransitive>.
<related> se usará para aquellos conceptos cuyo significado está relacionado,
en aquellos casos en los que la relación no corresponda con la genérico-
específica o parte-todo. <related> no se define como transitiva.

Un concepto puede estar relacionado con más de un concepto con un


significado más general, por lo que soporta polijerarquías.
Para registrar notas de alcance asociadas a los conceptos, SKOS define los
elementos <scopeContent>, <definition>, <example>, <historyNote>,
<editorialNote> y <changenote>. Las notas también pueden ir acompañadas
por un atributo que indica el idioma en el que se han redactado.
Los sistemas de conceptos se declaran mediante <conceptScheme>. Los
sistemas de conceptos se definen o declaran en primer lugar, y luego se indica
la pertenencia de un concepto a un sistema u otro mediante el atributo
@inScheme que acompaña al concepto. Un mismo concepto podrá pertenecer
o estar asociado a distintos sistemas de conceptos.
En SKOS se pueden vincular conceptos a sistemas, pero no sucede así con las
relaciones que existen entre los conceptos y que no se vinculan a un sistema
de conceptos particular. Existe aquí una diferencia importante respecto al
planteamiento tradicional en los lenguajes de indización, donde tanto los
conceptos como las relaciones que se establecen entre ellos forman parte del
lenguaje.
Normalmente los sistemas de conceptos tendrán una serie de jerarquías de
términos, cada una de ellas con su término principal que constituye el origen
o punto de acceso a la jerarquía, y que estará situado en el nivel superior de
la misma. En SKOS, esto se representa mediante los elementos
<hasTopConcept>.
Para indicar las relaciones entre conceptos de distintos sistemas, SKOS
incorpora las propiedades exactMatch y closeMatch, que indican distintos
niveles de similitud semántica, junto con broadMatch, narrowMatch y
relatedMatch, que se utilizarán en aquellos casos en los que un término tenga
un significado más o menos genérico o específico que el de otro concepto
definido en un sistema de conceptos diferente. No obstante, estas opciones
han sido juzgadas insuficientes por (McCulloch 2008), a partir de un caso
práctico desarrollado para investigar la compatibilidad entre distintos
vocabularios controlados (DDC, AAT, LCSH, MeSH) basándose en las
correspondencias propuestas en 1995 por M.A. Chaplan (McCulloch, 2008: 71).

pág. 40
SKOS no hace mención a cómo se deben relacionar los conceptos con los
recursos indizados.

Además de estos puntos básicos, SKOS establece aspectos avanzados que


permiten representar casos más complejos:
• La representación de colecciones etiquetadas. Consisten en términos
que se agrupan al existir entre ellos algún tipo de relación semántica.
Las clases Collection y OrderedCollection representan al grupo, y se
puede indicar que un término es miembro de estas colecciones
mediante su propiedad member o memberList respectivamente.
• Poder usar referencias a otros documentos para documentar o
explicar el alcance de un concepto.
• Poder relacionar entre sí las etiquetas lingüísticas (labels) asignadas
a los conceptos, y no sólo los conceptos entre sí, mediante una
extensión llamada SKOS-XL, y que está incorporada como Apéndice a
la recomendación.
• Incluir códigos de clasificación para los conceptos mediante la
propiedad notation.

Para concluir este apartado es necesario destacar que SKOS es extensible (lo
que permite establecer nuevos tipos y subpropiedades), y que es posible
combinarlo con otros sistemas de metadatos.

pág. 41
BIBLIOGRAFÍA

 AMAR, Muriel. Les fondements théoriques de l’ indexation: une


approche linguistique. Paris: ADBS Editions, 2000.
 BANTIN, Philip. Understanding data and information systems for
recordkeeping. Neal-Schuman Publishers. 2008
 CHAUMIER, Jacques. Análisis y lenguajes documentales.. Trad. L. Porta.
Barcelona: Editorial Mitre, 1996..
 FOX, Virginia. Análisis documental de contenido : principios y prácticas.
Alfagrama. 2005
 GIL LEIVA, Isidoro . Manual de indización : teoría y práctica . Trea.
2008
 IZQUIERDO ALONSO, Mónica. El resumen documental : un reto
didáctico. ANABAD. 2009
 LANCASTER, F. W.. Indización y resúmenes: teoria y práctica.. Trad.
 Elsa E. Barber. Buenos Aires: EB Publicaciones, 1996..
 MANIEZ, Jacques. Los lenguajes documentales y de clasificación:
concepción, construcción y utilización en los sistemas documentales..
Trad. del francés Francisco Javier Álvarez García, Juan Francisco
Herranz Navarra, Margarita Ramírez Reyes. Madrid [etc.]: Fundación
Germán Sánchez Ru.
 MARTÍNEZ TAMAYO, Ana María . Indización y clasificación en bibliotecas.
Alfagrama. 2008
 MOREIRO GONZÁLEZ, José Antonio . El contenido de los documentos
textuales : su análisis y representación mediante el lenguaje natural .
Trea. 2004
 PEÑA HUERTAS, María José de la. El resumen documental : ejercicios
prácticos : textos de biblioteconomía, bibliografía, documentación,
nuevas tecnologías, historia del libro, archivística e historia de las
instituciones . Estudios de técnicas documentales. 2011
 PINTO, María . Aprendiendo a resumir : prontuario y resolución de
casos, . Trea. 2005
 SLYPE, Georges van. Los lenguajes de indización: concepción,
construcción y utilización en los sistemas documentales.. Madrid [etc.]:
Fundación Germán Sánchez Ruipérez, 1991 (Biblioteca del Libro)

pág. 42

También podría gustarte