Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Continuidad Digital
Complementos formativos
Septiembre de 2021
Profesorado: Ricardo EITO-BRUN reito@bib.uc3m.es
Autores de los materiales:
Miguel Ángel MARZAL GARCÍA-QUISMONDO
Ricardo EITO-BRUN (Anexos)
pág. 1
Tabla de contenidos
pág. 3
GUÍA DOCENTE
1. Objetivos de la materia
a. Conocer los fundamentos, problemas y técnicas del análisis y
representación del contenido y de la información, así como las
principales teorías y métodos de indización y resumen.
2. Sistema de Evaluación
a. Seguimiento puntual de la materia por consulta de los materiales
didácticos de esta materia, para lo que se hará un examen de accesos,
puntos de acceso y tiempo de acceso de los alumnos en las distintas
categorías de los materiales didácticos.
pág. 4
1 FACTORES Y FUDAMENTOS DE LOS
LENGUAJES DOCUMENTALES
1.1 DOCUMENTO, TEXTO Y SUS FUNCIONES
1.1.1 El Análisis de Contenido
Mensaje Documentario
Mensaje Documentado
Mensaje Documental
pág. 7
documento, por cuanto se han ido desarrollando unas TIC que han ido
generando “documento electrónico”, “hipertexto”, “documento digital”, etc.
Desde la óptica de la Documentación es preferible hablar de hiperdocumento,
por lo que se hacen precisas unas precisiones. Hablamos de “documento
electrónico”, por ser la denominación más amplia en los entornos tecnológicos,
al referirse a aquel documento cuyo soporte es electrónico y necesita
dispositivos electrónicos para su lectura y escritura, diferenciándose del
“documento digital”, cuya información está codificada en bits, de modo que
el documento digital es sólo una posibilidad del documento electrónico.
En su tesis, M. J. Lamarca afina definiendo diferenciadamente lo que es el
documento virtual, como aquel documento previamente inexistente que, por
las posibilidades de técnicas y herramientas de búsqueda y la recuperación
informativa individualizada, permite al usuario generar un documento
automáticamente. Sólo a partir de aquí derivamos una definición precisa de
documento hipertextual, entendido como un documento virtual en el que
su estructura contiene conexiones predefinidas con otros documentos, pero
su navegación y generación depende completamente de las necesidades y
estrategias de su usuario. El documento hipertextual presenta una estructura
consistente en una red de nodos interconectados. Cuando al documento
hipertextual se le asocian elementos multimedia debemos hablar de documento
hipermedia.
Precisamente el concepto de documento hipertextual es el que permite una
más efectiva comprensión del concepto de hiperdocumento. Sin duda el nudo
gordiano de la concepción está en la estructura hipertextual de conexión entre
“documentos”, entendido como una unidad de almacenamiento de
información, que puede contener uno o un conjunto de nodos. Para M.J.
Lamarca, pues, hiperdocumento es el conjunto de “documentos” que
conforman la red hipertextual y el conjunto de componentes de la estructura
hipertextual. Esta perspectiva conceptual es particularmente útil cuando se
considera el hiperdocumento, no desde la estructura hipertextual de conexión
(esencial, pero en plano subsidiario), sino principalmente como el conjunto
de documentos que conforman su red hipertextual. De otro lado, esta
perspectiva nos permite priorizar el contenido (el almacenamiento de
información en “documentos”, que contienen “nodos”).
1.1.3 El texto
La definición más exhaustiva de texto la ha hecho E. Bernárdez: “Texto
es la unidad lingüística comunicativa fundamental, producto de la actividad
verbal humana, que posee siempre carácter social; está caracterizada por su
cierre semántico y comunicativo, así como por su coherencia profunda y
superficial, debido a la intención (comunicativa) del hablante de crear un texto
íntegro y a su estructuración mediante dos conjuntos de reglas: las propias del
nivel textual y las del sistema de la lengua.”
Desde esta óptica, adquiere un protagonismo decisivo el texto, en tanto
que manifestación de la lengua natural, combinación de unidades lingüísticas
y signos estructurados con intención comunicativa por parte del emisor,
con el fin de transformar el estado del conocimiento en el receptor.
pág. 8
Se hicieron particularmente útiles, entonces, las aportaciones de la
Semiótica (aportó la sintaxis, semántica y pragmática textuales), la Gramática
o Lingüística Textual (analiza el vínculo entre el texto, con su “prototexto” y
su “metatexto”), la Gramática Generativa y la Lingüística Computacional (para
el PLN), así como la Lingüística Cognitiva (sobre la manifestación del
pensamiento en el texto). Posteriormente, en esta convergencia de
cooperaciones se unió la Psicología Cognitiva, muy útil en la predictibilidad
en las estrategias de búsqueda y los estudios de usuarios.
El análisis del texto para representación de su contenido está determinado por
el grado de descripción identificativa o representativa que se desee sobre un
recurso informativo, respecto a:
a. Contenido, un concepto distinto a mensaje (éste se refiere a la
señal), construido por el receptor a partir del significado que se
conceda a los conceptos, mediante:
Denotación, o relación de un signo para referir un objeto concreto.
Connotación, relación entre un concepto y otros conceptos sugeridos
por él.
Designación, relación entre el concepto y sus ejemplos.
Significación, relación entre un concepto y el conjunto de conceptos
que permiten una definición.
Estos dos factores, contenido y texto, componen el Discurso del texto, cuyos
elementos de definición son: el tópico o tema discursivo; el conocimiento
subyacente; el esquema, o conocimiento prototípico.
Contenido y texto, pues, permiten una gradación en niveles descriptivos de un
recurso o documento. Los documentalistas se han agrupado en dos corrientes,
según el nivel de operaciones adecuado para tratar un texto en las distintas
unidades de información:
Formalista, con preferencia de la descripción física de un documento
pág. 9
para su identificación y control.
Funcionalista, con preferencia por el análisis de contenido del texto,
para representarlo.
Descripción Análisis
Soporte Catalogación
pág. 10
Estructura Identificación
superficial como
Información Información
objeto
original referencial
Estructura
semántica Indización
Macroestructuras Resumen
1.2.2 Caracteres
1.2.3 Elementos
Son los operadores que buscan cumplir mejor los principios, arriba expuestos:
Términos autorizados, extraídos del lenguaje natural. Una vez
normalizados portan una fuerte carga significativa. Se les concede la
misma denotación y connotación.
Términos no autorizados. Significativos, pero no pueden ser
autorizados, de modo que reenvían al término autorizado.
Relaciones. Imponen las posibles combinaciones en las búsquedas.
Pueden ser: jerárquicas (tg, te), equivalentes (up, use), asociación (tr).
Notaciones numéricas. Indican jerarquía, pero referida a la correcta
pág. 14
colocación sintáctica en un sintagma u oración.
Notas de alcance. Indican la exacta definición terminológica del
término.
d. Lenguajes de precisión
Son los correctores lingüísticos en programas informáticos.
e. Tipificación de Van Slype
pág. 15
Lenguaje libre, supone una plena apertura terminológica: i) Listas de
palabras clave. Se van incorporando todas las palabras semánticamente
ricas de cada documento. Se ordenan alfabéticamente; ii) Listas de
descriptores libres. En orden alfabético, los conceptos significativos
con las palabras clave relacionadas. Es una primera normalización hacia
el “término” por una sustantivación.
Lenguaje controlado, usa sólo “términos”: i) Lista de autoridades.
Colección finita de términos, en orden alfabético, que representarán
unívocamente conceptos para su ordenación y recuperación. Carece de
relaciones; ii) Tesauros. Lista estructurada de términos, normalizada y
controlada, para ordenar y recuperar, mediante relaciones.
Lenguaje codificado. Se orienta a la clasificación. Debe ser sintético y
concentrado en una notación numérica.
pág. 16
Enlace con términos relacionados Mucho más eficaces por su
estructuración en los lenguajes
documentales.
2 LA INDIZACIÓN
2.1 Definición
Como es lógica, viene sesgada por la insistente inclinación hacia el
producto. De otro lado, la indización participa en dos etapas de la gestión
documental, a saber almacenamiento y recuperación, por lo que debe
atender al análisis de los documentos y a las demandas para la selección
de los conceptos explícitos o implícitos y así poder ser transformados
en un lenguaje documental, doble objetivo en el proceso documental que
difumina su concepción.
En consecuencia, la concepción y definición de la indización tiene
limitaciones, una no menor es que sólo se considera al documento
como fuente de análisis, postergando la demanda y la interrogación
documentales. Es imprescindible destacar que en todo el proceso
indizador la potencial demanda documental en una recuperación de
información debe ser el elemento guía. La indización debe ser un proceso
dirigido por el documentalista en el que diseñe un camino convergente
desde la perspectiva de almacenamiento y desde el de la recuperación.
Es muy útil la definición de UNESCO (1975): Describir y caracterizar un
documento con la ayuda de representaciones de los conceptos contenidos
en dicho documento, para permitir una búsqueda eficaz de las
informaciones contenidas en un fondo documental.
pág. 17
conforme a ellas.
2.3.2 Estilos.
Existe una gran disparidad en identificar los estilos en la indización:
a. Verificación
Un solo equipo indizador acomete la indización documental para el
almacenamiento y la indización de las demanda para la recuperación. Será
conveniente considerar las características del personal de indización, su
preparación, actividad, especialización y la posible existencia de un equipo
verificador, para unificar criterios. El objetivo es la consecución del
homomorfismo: el empleo del mismo significado – significante por parte del
usuario y del documentalista.
b. Pertinencia
(A+B)-Tco
2.4.4 La calidad.
En indización es éste un aspecto que sólo se mide por los resultados. Fue
Léonard quien concibió la calidad en indización en términos de eficacia en la
recuperación, como un sistema de evaluación sobre la capacidad de recuperar
lo que se busca y evitar lo que no se busca. El valor de la eficacia en la
evaluación de la calidad derivó a su relación con la coherencia: en opinión de
Léonard, a mayor grado de coherencia entre indizadores y respecto a los
pág. 21
usuarios, mayor eficacia en la recuperación, resultando una indización de
calidad. En realidad, la calidad es más compleja. Rolling definió la calidad en
indización como el grado de concordancia entre términos asignados por el
indizador y un grupo de términos óptimos, por lo que es imprescindible un
método de consenso entre el indizador y los especialistas. En una metodología
muy diferente, White y Griffith consideraron la calidad en la indización por
tres características: el alcance con que los términos unen ítems relacionados;
el alcance con que los términos discriminan entre los conjuntos de una base
de datos; el alcance con que los términos discriminan entre distintos
documentos.
La complejidad de la calidad en indización deriva del hecho de que la
recuperación debe englobar en una evaluación la pregunta, búsqueda y
respuesta documentales, cada una con diseños y estrategias diferentes. Las
tasas para medir el grado de Exhaustividad, esto es, la relación entre el
número de documentos recuperados y el número total de documentos
relevantes en la colección, considera también:
3 EL TESAURO
3.1 Concepto y definición
En el siglo XX, después de los trabajos de H. P. Luhn y los unitérminos de
Taube, la evolución conceptual de thesaurus fue muy rápida. En los años 50
Howerton definió tesauro como una lista autorizada de términos que conduce
de unos conceptos a otros mediante relaciones heurísticas. Desde 1959 se
inicia una fuerte proliferación de tesauros a causa del desarrollo de un
vocabulario para la recuperación de la información en la organización Du
Pont, seguido de la edición de dos tesauros muy difundidos: Thesaurus of
ASTIA descriptors (1960) y Chemical Engineering Thesaurus (1961). En España
su impacto comenzó a ser evidente a finales de los 70, en los encuentros
REUNIBER 78, imponiéndose paulatinamente la voz tesauro.
pág. 22
En los 70 G. Wersig definió tesauro como lista de términos prefijados,
extraídos del texto documental, que representan conceptos y permiten
posteriores combinaciones. Durante los años 80 se produjo la relación
definitiva del tesauro con la Terminología: H. Felber lo definió como el
instrumento para controlar un lenguaje específico de indización y establecer
las relaciones entre conceptos. La automatización impulsó decididamente los
tesauros dentro de la Documentación, como lenguaje convenido y controlado
para que los términos presenten una clara univocidad y en el que se ofrece la
posibilidad de esos términos tanto para analizar como para buscar el
contenido concreto de los documentos. Los tesauros alcanzaban así una
posición muy relevante entre los vocabularios controlados por su coherencia
en la indización y la posterior recuperación documental.
Los tesauros comenzaron a experimentar, pues, la necesidad de una
codificación, resultado de la cual fue la norma ISO 2788-1986 y su
correspondencia española UNE 50-106-1989.
Los tesauros, como tantas otras cosas, han ido definiendo su espacio
conceptual en oposición a otros instrumentos documentales:
Se distinguieron de las obras de referencia por no definir sino
contextualizar y no admitir acepciones sino términos compuestos.
Se distinguieron de los encabezamientos de materias por su estructura
precoordinada.
Se distinguieron de los índices por establecer relaciones semánticas.
Se distinguieron de las listas de autoridades y descriptores libres por
ser cerrados y codificados.
pág. 23
Las Directrices para el establecimiento y desarrollo de los Tesauros
monolingües dentro del PGI de la UNESCO, así como las normas ISO y UNE han
definido tesauro: Es un lenguaje de indización controlado y dinámico, cuyos
términos están controlados semántica y jerárquicamente, que se refiere a un
campo específico del conocimiento y sirve como instrumento para el
almacenamiento y posterior recuperación de información, sobre todo en los
modernos sistemas automatizados.
Su espacio es, sin duda, el campo semántico, el significado de las unidades
lingüísticas exclusivamente, para determinar el contenido informativo del
documento o de una consulta. La determinación del significado no se hace por
definiciones, sino mediante la confrontación de campos semánticos, entendidos
como el conjunto de unidades léxicas ligadas por una estructura de relaciones
de significado, que permite precisar la significación de cada una de las
unidades. Las funciones son: normalización, inducción y representación del
contenido.
Los Tesauros, en tanto que Lenguajes Documentales, precisan de un sistema
de significación, cuyos elementos son un léxico (con términos depurados), una
red paradigmática (con relaciones esenciales y estables entre los descriptores,
diseñando una red organizada de modo lógico – semántico, próxima a una
clasificación) y una red sintagmática (con unas relaciones contingentes, válidas
sólo en un contexto, a partir de unas reglas sintácticas, destinadas a coordinar
descriptores).
En el cumplimiento de este objetivo y funciones, la Terminología se muestra
como un óptimo instrumento para los Lenguajes Documentales por ser
especialmente útil en:
La elección de palabras clave para la identificación temática de un
documento.
La organización de estructuras funcionales de concepto.
La redacción de definiciones de conceptos y de notas de alcance.
El análisis de los procesos de incorporación de neologismos.
pág. 24
3.2.1 Normativas. Gestión de términos candidatos a descriptores.
Destinadas a reglamentar la presentación de las unidades léxicas, como su
función en el tesauro:
pág. 25
3.2.3 Fuentes de elaboración.
Infieren una labor muy sistemática por el alto valor de control terminológico
del tesauro. Deben contemplar una planificación, cuyos objetivos son:
Estudios de Oportunidad: Definición de mercado y análisis de la oferta
existente; Definición de los caracteres del tesauro respecto a los dominios a
cubrir, tamaño, idiomas, compatibilidad con otros tesauros, caracteres
formales y criterios de calidad; Elección de fuentes terminológicas; Proceso
de tratamiento en la construcción y presentación; Responsables y coste.
Debe contemplar dos fases:
Delimitación del campo terminológico. Acotando un lenguaje
específico, estableciendo un índice de profundidad media y diseñando
un mecanismo de actualización.
De término a descriptor. Transformación que reclama como tareas
propias: Recolectar términos en lenguaje natural del dominio elegido,
como palabras clave, por su alto contenido semántico; Comparación
con otros lenguajes documentales existentes afines; Depuración
semántica mediante fuentes terminológicas específicas, asesoría de
especialistas y usuarios; Anotación contextual consignando la fuente del
término, origen lingüístico, ortografía, colectivos que lo utilizan,
evolución, frecuencia de uso; Test de comprobación en la
representación y recuperación, interrogando bases de datos
terminológicos o del dominio elegido.
Lengua.
- Monolingüe, expresión de los descriptores en una sola lengua.
- Multilingüe, utilizan varios idiomas para los descriptores, pero
no actúan como diccionarios por no definir y por establecer
relaciones biunívocas entre las expresiones del descriptor entre
los diferentes idiomas.
Área.
- Sectorial, por limitarse a un dominio del conocimiento.
- Temático, reagrupa los descriptores por dominios de
conocimiento mediante relaciones jerárquicas.
pág. 27
3.2.6 Gestión y mantenimiento de Tesauros
La elaboración del tesauro es muy costosa y su correcta manipulación optimiza
el trabajo del indizador y la recuperación por el usuario. Aplicado sobre un
área profesional o de conocimientos específicos y para un lenguaje
especializado, el continuo progreso del saber puede transformar el tesauro en
inconsistente e inadecuado. Para evitarlo, el tesauro contempla una
flexibilidad para su actualización, encomendada a un responsable editor,
asistido por un pequeño grupo de lexicógrafos:
Detección de problemas
a) El indizador no haya un descriptor entrópico y pertinente. Debe crear,
entonces, una fiche de descriptor candidato para ser sometido a pruebas
de forma y frecuencia de uso.
b) El usuario logra una recuperación poco exhaustiva y pertinente al
interrogar por un descriptor.
pág. 28
3.2.8 Presentación y aplicabilidad del Tesauro
Partes
Introducción. Se hacen explícitas la acotación temática, la metodología y
reglas de uso, las fuentes y bibliografía.
Estructura. Acoge la clasificación general, la representación jerárquica, la
representación alfasistemática, la representación gráfica, los índices
permutados.
Índices auxiliares. Con la ordenación alfabética o jerárquica de
identificadores y la terminología complementaria. Es muy útil dar las pautas
para la edición de tesauros, perfectamente sistematizadas por E. Currás.
Estilos.
4 EL RESUMEN DOCUMENTAL
4.1 Concepto y Funciones
Cuando se define como Ciencia la Documentación en el primer tercio del siglo
comenzaron las precisiones sobre el Resumen Documental: no consiste en
condensar el texto (técnica de la Lingüística), por cuanto debe incorporar el
contexto (auxilio de la Lógica, Sicología, Sociología, Teoría de la Comunicación
y las Ideas).
El elemento básico del Resumen documental son las unidades semánticas. Se
relacionan con la metodología del resumen: en una primera fase la Lengua
apoya la comprensión de la estructura superficial y profunda del texto, luego
se aborda la comprensión de las palabras (análisis componencial) y de las
frases (análisis de predicados), para luego acudir a la secuencia de frases, que
detecta la coherencia lineal del discurso y las relaciones semánticas, llegando
finalmente a la macroestructura, que según Van Dijk es la representación
abstracta de la estructura que articula el texto y que condiciona el nivel
profundo de la significación del texto, en tanto que la microestructura
determina la comprensión superficial. Este método ha tenido como auxiliares
el Estructuralismo para analizar las unidades mínimas del lenguaje, la
Gramática Generativa como investigación del sentido del texto y la Gramática
Textual por sus principios asentados en la Lógica filosófica y la Semántica.
El Resumen Documental debe entenderse, pues, el conjunto de operaciones
pág. 29
que transforman las macroestructuras del texto para explicar la información
sustancial del documento mediante la retextualización de su mensaje. Resumir,
pues, no es extraer (esto es cita textual) ni anotar (nota informativa) ni sumariar
(elaboración de epígrafes) ni compendiar (registro identificativo) ni hacer
sinopsis (resumen de autor).
Las funciones del Resumen Documental, desde esta óptica, son:
Reproducir el mensaje original de forma breve y completa.
Evaluar el contenido documental.
Facilitar la comprensión del texto original.
Sustituir un original con problemas de acceso lingüístico, de difusión...
Transcodificar documentos no textuales (gráficos, audiovisuales...)
Estas tres operaciones se traducen en tres fases de elaboración con sus reglas:
Lectura analítica. Se detecta el hilo discursivo del texto, evidenciando
las etapas del razonamiento mediante los conectores lógicos y
lingüísticos.
Estrategias de reducción. Subrayan las redes semánticas del texto, con
sus palabras clave, para luego organizarlas en un organigrama
clasificador que articule el nuevo texto resumido.
Reglas básicas de representación. Resumir es una técnica intelectiva,
por lo que no existen pautas normalizadas, que tienen como
propiedades:
o Entropía para evitar redundancias discursivas.
o Pertinencia, para adecuarse al nivel del usuario, el método
homogéneo de la unidad informativa y la objetividad.
o Coherencia, reconstruyendo con lógica las ideas principales.
o Corrección lingüística, según las reglas del uso de la Lengua.
o Estilo, directo, claro, conciso, con frases cortas.
o Informatividad, con datos externos sobre la naturaleza y enfoque
del texto.
4.2 Tipología
Tipificación “Clásica”
1º Resumen informativo, representa la idea principal y la significación más
relevante de cada una de sus partes. Tienen alta capacidad informativa y
pueden sustituir al original. Recoge, pues, la macroestructura, la hipótesis de
partida, la argumentación ordenada de microestructuras que hacen referencia
al objeto considerado, proceso metodológico, resultados y conclusiones.
2º Resumen indicativo, se reduce a la expresión de la macroestructura, de tal
modo que ilustra el título del texto, con aclaraciones complementarias desde
el sumario del texto. Aborda conceptos genéricos y no se detiene en el
proceso argumental. Sirve de referencia y difusión del original.
3º Resumen de autor, realizado por el autor del texto, es simultáneo y
antecede al texto original. Tiene la ventaja del profundo conocimiento del
tema y son evidentes las aportaciones, pero es muy deficiente por
subjetividad y ausencia de técnica.
4º Resumen crítico, interpreta el original, evaluándolo, pero también
valorándolo. El analista juzga y opina sobre la oportunidad del texto.
Confronta aportaciones.
5º Resumen de extractos y modulares. Resumen automatizado con selección
de términos y sus párrafos de expresión. El autómata reconoce los términos o
descriptores y cohesiona en una cadena.
5 Tendencias
Están marcadas por la automatización de los procesos y por la forma de
representación de contenidos en web.
En Indización, la automatización descansa sobre el progreso de los
modelos probabilísticos. Dado que la mayoría de los sistemas de
recuperación de información trabajan con lenguaje natural, producen
pág. 31
cierta imprecisión a la hora de acertar con aquellos documentos que
son relevantes para una petición concreta. Para evitarlo Robertson y
Sparck Jones se convencieron en 1976 de que era necesario establecer
un orden decreciente de importancia en los documentos recuperados
tras efectuarse esa demanda, iniciándose así los métodos de
representación probabilística. Cuando un usuario plantea una demanda
pretende obtener el conjunto de documentos de respuesta ideal, aquel
formado exclusivamente por los documentos que son relevantes a su
petición. De tal modo que el proceso de recuperación se centra en
especificar las propiedades que debe satisfacer ese conjunto de
respuesta ideal. El usuario valoraría entonces cuáles de los documentos
de la primera selección son relevantes y cuáles no tenían interés para
él. La información es pasada al sistema, que en repeticiones sucesivas
del proceso refina la búsqueda y se aproxima al conjunto ideal. Se
intenta estimar si hecha una consulta q y habiendo un documento
candidato d, existe la probabilidad de que el usuario juzgue que el
documento d es relevante. Las técnicas probabilísticas más frecuentes:
Sistemas de ponderación para el filtrado de términos: buscan la
distribución de la frecuencia de las palabras para calcular sus pesos, ya
que no todas tienen la misma importancia en un texto. Es muy utilizada
la Indización Estadística de Términos por Frecuencias o IDF, sistema de
filtrado basado en la ley de Zipf que establece que las palabras de
mayor frecuencia no suelen ser significativas, ya que la importancia de
un término es proporcional a la frecuencia de ocurrencia en el
documento e inversamente proporcional al número de documentos en
que aparece. La técnica IDF dispone un sistema de pesos en función de
la frecuencia relativa de cada término en cada documento. Dado que la
ley de Zipf solo estaba pensada para filtrar términos simples, debe
complementarse con el Método N-grams que se aplica al tratamiento de
palabras compuestas. Este algoritmo trabaja de modo parecido al
anterior, pero calcula la frecuencia no sobre cada término o palabra
compuesta, sino con cadenas de caracteres de longitud predeterminada
y fija.
Métodos de obtención de relaciones entre componentes: Para poder
representar adecuadamente la información y utilizarla de un modo
óptimo e inteligente es necesario clasificarla, de tal modo que se
establezcan relaciones entre los componentes que la definen y
describen. Existen numerosos y variados enfoques para realizar este
proceso: Clasificadores cienciométricos, el más conocido es el Método
de Chen, que analiza el uso de grupos de palabras que aparecen
simultáneamente en varios documentos; Algoritmos K-vecinos, cuyo
modo de funcionamiento del algoritmo consiste en mover cada vector
pág. 32
al cluster cuyo centroide esté más cercano al mismo, y actualizar
después los centroides de los clusters.
La mejor forma de saber qué es y para qué sirve SKOS es acudir al documento
que lo describe, la Recomendación W3C recientemente publicada el 18 Agosto
de 2009, tras un proceso de elaboración iniciado en el año 2005. Está disponible
para su consulta en la dirección web http://www.w3.org/TR/skos- reference/
pág. 34
Este documento define el Sistema Simple de Organización del Conocimiento
(SKOS), un modelo de datos común para el intercambio y enlazado de los
sistemas de organización del conocimiento a través de la Web. Muchos de los
sistemas de organización del conocimiento, tales como tesauros, taxonomías,
esquemas de clasificación y sistemas de encabezamiento de materias,
comparten una estructura similar, y se utilizan en aplicaciones similares. SKOS
capta gran parte de esta semejanza y la hace explícita, para hacer posible el
intercambio de datos y de tecnología entre distintas aplicaciones.
El modelo de datos SKOS proporciona un medio estándar y de bajo coste para
la conversión de los sistemas de organización de conocimiento existentes a la
Web Semántica. SKOS también ofrece un lenguaje ligero e intuitivo para
desarrollar y compartir nuevos sistemas de organización de conocimiento. Se
puede usar sólo o en combinación con los lenguajes formales de representación
del conocimiento, tales como el Lenguaje de Ontologías Web (OWL).
Los tesauros se han ido complementando con gestores de contenidos web:
topic maps, ontologías, herramientas 2.0.
pág. 35
ANEXO I: La norma ISO 25964
La norma ISO 25964: Tesauros e interoperabilidad con otros vocabularios,
actualiza y reemplaza a las anteriores normas ISO 5964:1985 e ISO 2788:1986.
Esta revisión era necesaria en el estándar ISO de los tesauros debido a los
nuevos modelos de indización y recuperación de la información.
Interesa conocer este documento ya que en él se resume en gran medida el
estado del arte en la construcción de vocabularios controlados para la
indización.
La ISO 25964 Information and documentation – Thesauri and interoperability
with other vocabularies cuenta con 2 partes:
- Parte 1: Thesauri for information retrieval, es decir, tesauros para la
recuperación de información. Se publicó en 2011.
- Parte 2: Interoperability with other vocabularies, esto es, la
interoperabilidad con otros vocabularios. Se publicó en marzo de 2013.
Parte 1
La primera parte de la norma ofrece recomendaciones para la construcción,
desarrollo y mantenimiento de tesauros monolingües y multilingües destinados
a aplicaciones de recuperación de información, e incluye recomendaciones
funcionales para el mantenimiento del software del tesauro,
independientemente de los medios utilizados (texto, sonido, imagen).
Los primeros capítulos de la norma especifican la terminología utilizada en la
construcción de los tesauros – conceptos y términos – para la recuperación de
la información.
El capítulo 9 se dedica a la relación de equivalencia interlingüística respecto a
la construcción de los tesauros multilingües. Se establecen cuatro grados de
equivalencia – exacta, inexacta (cuasiequivalencia), parcial (genérico-
específica) y la no equivalencia –; también se tratan los problemas derivados
del lenguaje natural (sinónimos, cuasisinónimos, homógrafos y la ausencia de
términos equivalentes en una o más lenguas en el capítulo 8 de la norma.
La construcción, mantenimiento y uso de los tesauros se aborda en el capítulo
13, donde se especifican como deben de ser la planificación, las primeras
fases de compilación, la gestión, el mantenimiento, la difusión y actualización
de los tesauros. A su vez, incluye las políticas previas, la formación y
conservación de los equipos de trabajo y los recursos necesarios.
El capítulo 14 de la norma menciona las recomendaciones y requisitos mínimos
que debe cumplir un software de gestión de tesauros.
La norma también expone formatos de intercambio para la interoperabilidad
entre las diferentes aplicaciones informáticas. En concreto, se mencionan los
formatos MARC (Machine-Readable Cataloguing, - Catalogación Legible por
Máquina), conjunto de estándares basados en la Norma ISO 2709, para el
intercambio de “registros de autoridad”, aquellos procedentes de tesauros u
otros tipos de vocabularios controlados. Los más relevantes son: el MARC21
pág. 36
Format for Authority Data y MADS (Metadata Authority Description Schema –
Esquema de Descripción de Metadatos de Autoridad) un formato XML
compatible con MARC21 para el registro de autoridades. La norma también
menciona otros formatos – SKOS, Zthes – este último desarrollado originalmente
con perfil de aplicación Z39.50 y ampliado a SRU (search / retrieve via
URL) y el formato DD 8723-5, desarrollado para la norma británica,
proporciona un esquema XML para el intercambio de tesauros conformes con
BS 8723.
Parte 2
La segunda parte de la norma ISO 25964 se aplica a los tesauros con otros
sistemas de organización del conocimiento en el contexto de la
interoperabilidad en internet y la web semántica. Se describen, comparan y
contrastan los elementos y características de estos vocabularios que resultan
cuando se requiere interoperabilidad, además de proporcionar
recomendaciones para el establecimiento y mantenimiento de mapeos entre
múltiples tesauros u otros tipos de sistemas de organización del conocimiento.
La propia norma menciona el objetivo principal de la interoperabilidad entre
vocabularios durante la recuperación de la información es hacer posible que
una expresión formulada con un vocabulario pueda ser convertida en (o
complementada por) una expresión correspondiente en uno o más vocabularios
distintos. Esto se aplica tanto si los vocabularios usan el mismo idioma como
si no. La expresión en cuestión puede ser tanto una petición de búsqueda
como una parte de los metadatos asociados a un documento. En ambos
casos, el mapeo constituye el paso clave.
Las relaciones semánticas entre vocabularios se denominan mapeos, y
cualquier tipo de relación puede ser definida y aplicada como un mapeo.
Respecto a los tesauros existen tres principales tipos de mapeo – equivalencia,
jerárquico y asociativo –.
El uso de mapeos en recuperación de la información se detalla en el capítulo
12 de la norma, y detalla que existen dos fases principales en las que puede
usarse el mapeo entre vocabularios controlados como parte del proceso de
indización o en el momento de la búsqueda.
Los capítulos 17 al 24 corresponden a la interoperabilidad de los tesauros con
cada uno de los sistemas de organización del conocimiento más importantes.
Se da prioridad a los usados para clasificar e indizar recursos, a saber: esquemas
de clasificación (clasificaciones bibliográficas y archivísticas), taxonomías,
sistemas de encabezamientos de materia, ontologías, terminologías, listas de
control de autoridades y anillos de sinónimos. Cada capítulo proporciona una
breve descripción informativa de las características clave del vocabulario, sus
componentes y relaciones semánticas, con el fin de proporcionar un análisis y
poner en contexto los requisitos de interoperabilidad y recomendaciones para
su implementación.
pág. 37
ANEXO II: LENGUAJES DOCUMENTALES Y SKOS
SKOS (Simple Knowledge Organization System) constituye una de las
especificaciones más relevantes en el área de la Web Semántica para la
actividad de bibliotecas y centros de documentación. Establece un puente
entre las tendencias actuales de la web semántica, y las prácticas
tradicionales para el control del vocabulario y la organización y
representación del conocimiento.
Origen y motivación
SKOS se publicó como recomendación W3C el dieciocho de agosto de 2009 por
parte del Semantic Web Deployment Working Group del W3C. El primer
borrador de trabajo se distribuyó en enero de 2008. Ofrece un modelo para
representar la estructura básica y el contenido de los esquemas conceptuales
de tipo tesauros, sistemas de clasificación documental, listas de
encabezamientos de materia o sistemas similares como las taxonomías y
folksonomías.
En la documentación oficial de SKOS se habla de sistemas de organización de
conocimiento semi-formales para diferenciarlos de las ontologías diseñadas
para soportar procesos de razonamiento automático complejos. SKOS está
orientado a la indización y a la recuperación de información documental,
frente a otros sistemas como OWL orientados a procesamientos más
complejos.
SKOS ofrece un esquema para codificar vocabularios controlados y lenguajes
de indización en XML. Se plantea como un método para migrar, con un bajo
coste, lenguajes de indización disponibles al entorno de la web semántica.
SKOS no debe considerarse únicamente como una forma de publicar lenguajes
de indización, sino como un mecanismo para representar relaciones entre
distintos esquemas conceptuales. En la recomendación del W3C también se
señala la necesidad de aprovechar la experiencia de la comunidad bibliotecaria
en la organización del conocimiento, dentro de las iniciativas para la web
semántica.
Entre las distintas iniciativas que han precedido a SKOS y que compartían el
mismo objetivo se encuentran LIMBER (Language Independent Metadata
Browsing of European Resources), CERES (California Environmental Resources
Evaluation System), GEM (Gateway to Educational Materials), CALL (Center for
Army Lessons Learned) Thesaurus, ETT (European Treasury Browser) o
KAON/AGROVOC. A esta lista hay que añadir el ADL Thesaurus Protocol.
pág. 38
• Los conceptos o “unidades de pensamiento” se identifican mediante
URI, a los que se pueden asignar distintas etiquetas en lenguaje
natural, en uno o en distintos idiomas.
• Los conceptos se agrupan en “esquemas de conceptos”.
• Permite asociar notas aclaratorias a los conceptos
• Permite relacionar los conceptos, mediante las relaciones
jerárquicas y asociativas características de los lenguajes de
indización.
Estructura de SKOS
Esta sección recoge una descripción de los principales elementos definidos en
SKOS.
Cada concepto se identifica mediante un elemento <concept>.
Las etiquetas lingüísticas asociadas a los conceptos se representan mediante
elementos <prefLabel>, <altLabel> o <hiddenLabel>.
• La primera señala el término autorizado
• La segunda términos alternativos no autorizados (sinónimos, cuasi-
sinónimos, formas abreviadas o desarrolladas para siglas, etc.)
• La tercera se utiliza para designaciones que se quieren registrar
pero que deben permanecer ocultas para el usuario del sistema.
<hiddenLabel> se usará para facilitar la recuperación, de forma que
el sistema informático pueda buscar también por estos términos
aunque no se presenten al usuario.
pág. 40
SKOS no hace mención a cómo se deben relacionar los conceptos con los
recursos indizados.
Para concluir este apartado es necesario destacar que SKOS es extensible (lo
que permite establecer nuevos tipos y subpropiedades), y que es posible
combinarlo con otros sistemas de metadatos.
pág. 41
BIBLIOGRAFÍA
pág. 42