Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sistemas de recuperación
Siguiendo a Peña, Baeza-Yates y Rodríguez Muñoz (2002)1, se establecen 5 modelos de
sistemas de recuperación de la información diferentes:
1. El modelo de búsqueda por texto libre. Este modelo no requiere una indización
de los documentos, por lo que no se mantienen índices. La información está
accesible tal cual como ha sido introducida. Las interrogaciones en la base de
datos se realizan a través de emparejamientos de cadenas de caracteres.
1
Peña, Baeza-Yates y Rodríguez Muñoz (2002). Gestión digital de la información de bits a bibliotecas
digitales y la Web. Madrid: RA-MA Editorial.
5. El modelo de lógica difusa. Este modelo se basa en la no existencia de un límite
definido que permita agrupar algo a un único grupo, sino que siempre existen
características que lo pueden incluir en alguna colindante.
EXHAUSTIVIDAD
A
Exhaustividad =
A+C
PRECISIÓN
A
Precisión =
A+B
Por otra parte, siguiendo con el ejemplo de PubMed, las bases de datos documentales
suelen disponer de un vocabulario controlado para la indización de los documentos.
Cada vez más, este vocabulario está a disposición de los usuarios para que lo utilicen en
sus búsquedas. Lo veremos de forma más detalla en los siguientes temas.
En este apartado nos centraremos en las implicaciones que Internet tiene para la
indización. Se trata de un tema tan importante como interesante para el trabajo de la
indización, ya que traspasa los límites del trabajo que se realiza en bibliotecas y centros
de documentación de diversa índole y llega al día a día de millones de personas en todo
el mundo, de manera más directa o indirecta. A este respecto, los profesionales de la
indización deben ser conscientes de su relevante papel ante esta realidad y actuar en
consecuencia.
La generalización de Internet
Antes de que el acceso y uso de Internet se universalizase, los datos estaban distantes y
descentralizados. Cualquier trámite que se quisiera hacer, implicaba el movimiento de
desplazarse al sitio en cuestión donde estuvieran localizados los datos de nuestro
interés. Sin embargo, la generalización de Internet supuso que prácticamente todos los
ámbitos de la actividad humana se desplazaran a la web y tuvieran un hueco en la
misma, como se puede observar con ejemplos en el ámbito de la cultura, de los servicios
o el comercio. Todo este desarrollo de la web lleva implícita la necesidad de unos
puentes que conecten toda la información, con el fin de que ésta llegue de forma más
rápida y eficaz a los usuarios. Estos “puentes” serían lo que denominamos motores de
búsqueda.
En esta nueva realidad, se crea un espacio denominado “universo de la indización web”
que está formado por cuatro ámbitos interrelacionados entre sí:
1. Los lenguajes de marcado y codificaciones normalizadas que facilitan la
organización y la difusión de información en la web (metadatos).
2. Los “propietarios” de la web, que desean que sus contenidos tengan la mayor
visibilidad, lo que sería un buen posicionamiento en las búsquedas
(posicionamiento web).
3. Los motores de búsqueda, que utilizan algoritmos complejos para ofrecer un
ranking con la información encontrada (buscadores).
4. Las tácticas que usan los usuarios en los motores de búsqueda para optimizar
esfuerzo y tiempo (comportamiento de los usuarios).
METADATOS
USUARIOS BUSCADORES
POSICIONAMIENTO
WEB
Los metadatos
Están destinados a ordenar y describir la información contenida en un documento
entendido como objeto, de tal manera que se revelan tanto la descripción formal como
el análisis del contenido, con la finalidad de mejorar el acceso a los objetos de
información de la red. Son, básicamente, estructuras de organización de la información,
legibles por máquina, cuyo fin es hacer útiles los datos según las necesidades concretas
de cada servicio de información digital y según la aplicación que se les otorgue.
Existen varios catálogos de tipologías de metadatos. Una que se entiende muy bien es
la siguiente:
- Metadatos independientes de contenido: recogen información sobre la
localización del documento, fecha de creación, modificación, etc.
De manera general, los conjuntos de metadatos emplean marcas o etiquetas, que son
pares iguales de palabras o acrónimos con un alto valor semántico y nemotécnico
encerradas por ángulos, entre las que se ubica la información estructurada. La primera
etiqueta indica que comienza una porción de información determinada, y la segunda
etiqueta, que lleva una barra oblicua, indica el fin. Estas etiquetas son fácilmente
legibles, tanto por programas informáticos como por humanos y tienen el objetivo de
presentar, estructurar e intercambiar información entre ordenadores.
Por ejemplo:
En el año 1986 la ISO convierte en norma uno de los primeros conjuntos de reglas para
los conjuntos de metadatos, que recibieron el nombre de Standard Generalized Markup
Language, conocido comúnmente como SGML. A partir de ahí, surgen los lenguajes de
marcado, que sirven para codificar un documento mediante un conjunto de etiquetas.
En este contexto, nace el lenguaje XML (eXtensible Markup Language), que es el más
extendido y conocido, casi convertido en el estándar.
De estos dos modelos (SGML y XLM), han ido surgiendo otros lenguajes de marcas, la
mayoría para ámbitos específicos, que sirven tanto para esquematizar y distribuir
información de cualquier tipo (como el lenguaje html o xml) como para disciplinas o
áreas específicas.
o HTML
Surgido a principios de los 90, el lenguaje de marcado HTML utiliza la sección cabecera
para transmitir al servidor web información acerca del documento. Toda la información
que se proporciona en la cabecera está comprendida entre la etiqueta <head> y la
etiqueta </head>. También existe una serie de etiquetas reservadas para la cabecera,
como la de <title> y </title> o la etiqueta METAKeywords, que sirve para inscribir ahí
palabras clave o freses significativas (para la indización) e indicar así a los motores de
búsqueda el contenido exacto de la web (para la recuperación) (Ejemplo en la Figura 3).
A continuación, se muestra un enlace a un vídeo explicativo (vídeo 1):
https://www.youtube.com/watch?v=10GHKjgQIR0.
o Dublin Core
La Dublin Core Metadata Iniciative parte de un grupo de trabajo constituido por
bibliotecarios, investigadores en bibliotecas digitales y proveedores de información que
comenzó a funcionar en Dublin (Ohio) en 1995, con la finalidad de proporcionar
recomendaciones sobre la descripción de recursos de información y su intercambio.
Entre sus ventajas, está el haber proporcionado 15 metadatos para la descripción
sencilla de un recurso de información:
- Para su contenido: title, subject, description, source, language, relation,
coverage.
- Para la propiedad intelectual: creator, publisher, contributor, rights.
- Para el formato: date, type, format, identifier.
La versión 1.1 del conjunto de metadatos Dublin Core pasó en 2003 a ser norma
internacional bajo el número de ISO 15836:2003.
Concretamente, las etiquetas relacionadas con la indización son subject y keywords,
creator y date, que se definen de la siguiente manera:
Name: subject.
Label: subject and keywords
Definition: the topic of the content of the resource
Comment: typically, a subject will be expressed as a keyword, key phrases or
classification codes that describe a topic of the resource. Recommended to selct a value
from a controlled vocabulary or formal classification scheme.
Name: creator.
Label: creator.
Definition: an entity primarly repsonsible for making the content of the resource.
Comment: it could be a person, an organization or a service.
Name: date.
Label: date.
<institution>
<origDate>
<origPlace>
<country>
<region>
Una vez repasadas algunas etiquetas utilizadas por varios lenguajes de marcas para
contener el resultado de la indización, se repasarán ahora tres codificaciones
normalizadas que tienen el mismo propósito:
MARC
La Biblioteca del Congreso de los Estados Unidos desarrolló el formato LC MARC como
un conjunto de señaladores que combinan números, letras y símbolos para añadirlos a
los registros catalográficos. De esta manera, cada porción de información bibliográfica
precedida por los señaladores puede ser leída por los ordenadores.
ISAD (g)
La Norma Internacional General de Descripción Archivística ha sido elaborada por un
Comité de Normas de Descripción del Consejo Internacional de Archivos. Esta norma
constituye una guía general para la elaboración de descripciones archivísticas que
identifiquen y expliquen el contenido y el contexto de los documentos de archivo con el
objetivo de hacerlos accesibles e intercambiables.
MOREQ
En el contexto de la UE y del intercambio de datos entre administraciones, se
confecciona en el año 2001 un modelo de requisitos (MOREQ) para implantarse en un
sistema de gestión de documentos electrónicos de archivo (SGDA). En este modelo de
requisitos se destinan metadatos en los que depositar la indización:
12.4.3 Palabras clave descritas: el SGDA debe admitir la asignación de
términos incluidos en un vocabulario controlado como términos
descriptivos referentes al asunto.
12.7.2 Asunto.
Posicionamiento web
https://www.youtube.com/watch?v=4SjQB3XdcAY
Buscadores
La recuperación de la información en Internet se lleva a cabo por medio de los
buscadores. Estos se pueden clasificar en índices temáticos o directorios y en motores
de búsqueda.
Tabla comparativa directorios/motores de búsqueda
Cada uno de los motores de búsqueda utiliza algoritmos secretos para ordenar de más
a menos relevantes los resultados devueltos por los usuarios. Un ejemplo claro es
Google, creado en el 1998 y su algoritmo creado PageRank. Se trata de un sistema
complejo basado en las redes de enlaces existentes entre las páginas web. Aunque la
totalidad de los criterios que utiliza el sistema para calcular el dato es reservada, parece
ser que tiene en cuenta la frecuencia de aparición de las palabras, su posición en el texto,
el número de enlaces que se encaminan hacia una página o la importancia de la página
que recibe y emite su voto. De esta manera, una web a la que apuntan 20 enlaces posee
en teoría menos interés que una a la que apuntan 1000. Cuando se hace una búsqueda
en Google, ocuparán los primeros puestos aquellas que tienen un PageRank alto y que,
además, coincidan con la búsqueda.
Usuarios
A día de hoy, el uso de Internet está convirtiendo a cada usuario en un
“paradocumentalista” en potencia. Esto se debe a que los usuarios de los buscadores
(es decir, prácticamente todo el mundo) han asimilado terminología, conceptos y
prácticas que hasta los 90 eran casi exclusivos de los profesionales de la información y
documentación. De esta manera, muchos usuarios que hacen alguna búsqueda en
Internet, están familiarizados con términos como:
- Elegir palabras clave, y cuanto más específicas, mejor.
- La “entrecomillación” para conseguir concordancias exactas.
- Los operadores booleanos.
- Especificar fechas o intervalos.
Es en este punto donde el profesional de la documentación debe tomar consciencia de
su valor a la hora de comprender y gestionar la información de una manera mucho más
profunda que el usuario “común”. Se trata de contrarrestar de alguna manera este
intrusismo profesional de los “paradocumentalistas” en potencia propiciando que la
vastísima información que se encuentra en la red sea manejada una forma mucho más
cuidadosa, basada en el criterio profesional, para que pueda llegar a la sociedad de una
forma más oxigenada.