T6 - Recuperacion de La Informacion e Introduccion A La Indizacion en Internet

TEMA 6
Relación entre indización y recuperación

La indización y la recuperación son dos caras de la misma moneda. La indización no tiene
razón de ser sin la recuperación y la recuperación puede mejorar muchísimo en cuanto
a precisión cuando se apoya en la indización.
A continuación, veremos algunas particularidades de la indización y de la recuperación,
como los sistemas de recuperación más extendidos o las nociones de documento
recuperado/no recuperado y de ruido documental.
 Sistemas de recuperación
Siguiendo a Peña, Baeza-Yates y Rodríguez Muñoz (2002)1, se establecen 5 modelos de
sistemas de recuperación de la información diferentes:
1. El modelo de búsqueda por texto libre. Este modelo no requiere una indización
de los documentos, por lo que no se mantienen índices. La información está
accesible tal cual como ha sido introducida. Las interrogaciones en la base de
datos se realizan a través de emparejamientos de cadenas de caracteres.
2. El modelo booleano. Muy conocido y utilizados por prácticamente todos los

sistemas de información comerciales. Se trata de emparejar por medio de los
operadores AND, OR y NOT términos no vacíos presentes en la base de datos. No
dispone de mecanismos para precisar en qué grado un término es más
representativo para un documento que otro.
3. El modelo booleano extendido. Se trata de complementar el sistema anterior y

asignar pesos a los términos en el momento de plantear la pregunta o en la
indización de los documentos.
4. El modelo del espacio vectorial. Se representa en el sistema por dos listas

ordenadas numéricamente. Estas listas corresponden por una parte a los pesos
dados al documento (en función del sumatorio de los valores asignados a los
términos de indización que representan ese documento) y por otra, a los valores
de la pregunta del usuario (en función de los pesos asignados a los términos de
indización de la pregunta).
1
Peña, Baeza-Yates y Rodríguez Muñoz (2002). Gestión digital de la información de bits a bibliotecas
digitales y la Web. Madrid: RA-MA Editorial.
5. El modelo de lógica difusa. Este modelo se basa en la no existencia de un límite
definido que permita agrupar algo a un único grupo, sino que siempre existen
características que lo pueden incluir en alguna colindante.
 La división entre documentos recuperados y no recuperados y sus características
Cuando se realiza una búsqueda en una base de datos, la colección de documentos

almacenada se divide en dos grupos: los documentos recuperados y los no recuperados.
A su vez, los documentos recuperados se subdividen en, según el criterio de los usuarios,
relevantes y no relevantes. Si nos fijamos en la tabla, podemos observar como en una
búsqueda perfecta, el usuario juzga que se han recuperado de la base de datos todos
los documentos relevantes y se ha prescindido de aquellos que no son relevantes. En
este caso, estamos ante una respuesta con el mayor grado de exhaustividad posible y
de precisión en la recuperación. Sin embargo, es importante tener en cuenta que, en la
práctica, los dos parámetros de exhaustividad y precisión suelen aparecer inversamente
relacionados. Esto es, que una mejora en alguna de las dos, se asocia con un peor
resultado en la otra.
DOCUMENTO RELEVANTE NO RELEVANTE TOTAL

Recuperado A B A+B
No recuperado C D C+D
Total A+C B+D A+B+C+D
Para averiguar los grados de exhaustividad y precisión en la recuperación, se pueden

emplear las siguientes fórmulas:
EXHAUSTIVIDAD
Nº de documentos relevantes recuperados

exhaustividad =
Nº total de documentos relevantes en la colección
Lo que, según la tabla, sería:
A
Exhaustividad =
A+C
PRECISIÓN
Nº de documentos relevantes recuperados

Precisión =
Nº total de documentos recuperados
Lo que viene a ser:
A
Precisión =
A+B
En relación con la exhaustividad y la precisión, también es muy importante tener en

cuenta los conceptos de ruido documental y de silencio documental. El ruido
documental es, básicamente, la información resultante de una búsqueda que no
interesa al usuario, mientras que el silencio documental es la información que sí interesa
al usuario pero que no fue recuperada por el sistema.
La forma más sencilla de comprobar la relación entre la indización y la recuperación es
acudiendo a las bases de datos documentales, ya que éstas suelen proporcionar cuadros
de diálogo para facilitar las búsquedas a los usuarios y, en última instancia, la
recuperación de la información. Tomamos como ejemplo el motor de búsqueda
PubMed que da acceso a la base de datos Medline (probablemente la base de datos
bibliográfica del ámbito biomédico más amplia actualmente). En este caso, PubMed
muestra unos cuadros de diálogo que son de comprensión bastante sencilla (Figuras 1 y
2):
Figura 1. Interfaz principal de PubMed donde se muestra la opción para la búsqueda

sencilla
Figura 2. Interfaz de PubMed con la opción de búsqueda avanzada
Por otra parte, siguiendo con el ejemplo de PubMed, las bases de datos documentales
suelen disponer de un vocabulario controlado para la indización de los documentos.
Cada vez más, este vocabulario está a disposición de los usuarios para que lo utilicen en
sus búsquedas. Lo veremos de forma más detalla en los siguientes temas.
La indización en Internet: el antes y el después
En este apartado nos centraremos en las implicaciones que Internet tiene para la
indización. Se trata de un tema tan importante como interesante para el trabajo de la
indización, ya que traspasa los límites del trabajo que se realiza en bibliotecas y centros
de documentación de diversa índole y llega al día a día de millones de personas en todo
el mundo, de manera más directa o indirecta. A este respecto, los profesionales de la
indización deben ser conscientes de su relevante papel ante esta realidad y actuar en
consecuencia.
 La generalización de Internet
Antes de que el acceso y uso de Internet se universalizase, los datos estaban distantes y
descentralizados. Cualquier trámite que se quisiera hacer, implicaba el movimiento de
desplazarse al sitio en cuestión donde estuvieran localizados los datos de nuestro
interés. Sin embargo, la generalización de Internet supuso que prácticamente todos los
ámbitos de la actividad humana se desplazaran a la web y tuvieran un hueco en la
misma, como se puede observar con ejemplos en el ámbito de la cultura, de los servicios
o el comercio. Todo este desarrollo de la web lleva implícita la necesidad de unos
puentes que conecten toda la información, con el fin de que ésta llegue de forma más
rápida y eficaz a los usuarios. Estos “puentes” serían lo que denominamos motores de
búsqueda.
En esta nueva realidad, se crea un espacio denominado “universo de la indización web”
que está formado por cuatro ámbitos interrelacionados entre sí:
1. Los lenguajes de marcado y codificaciones normalizadas que facilitan la
organización y la difusión de información en la web (metadatos).
2. Los “propietarios” de la web, que desean que sus contenidos tengan la mayor
visibilidad, lo que sería un buen posicionamiento en las búsquedas
(posicionamiento web).
3. Los motores de búsqueda, que utilizan algoritmos complejos para ofrecer un
ranking con la información encontrada (buscadores).
4. Las tácticas que usan los usuarios en los motores de búsqueda para optimizar
esfuerzo y tiempo (comportamiento de los usuarios).
Lógicamente, este “universo de la indización” está impregnado por la indización misma,

y se ha llegado a él gracias a la extensión progresiva de conocimientos y prácticas de los
indizadores con motivo de la popularización de Internet.
En la siguiente imagen observamos un resumen gráfico del universo de la indización
web, que se explica de manera más detallada en las siguientes páginas. Este universo
formado por los metadatos, el posicionamiento web, los buscadores y los usuarios, es
lo que veremos en lo que queda de este tema con más detalle.
METADATOS
USUARIOS BUSCADORES
POSICIONAMIENTO
WEB
 Los metadatos
Están destinados a ordenar y describir la información contenida en un documento
entendido como objeto, de tal manera que se revelan tanto la descripción formal como
el análisis del contenido, con la finalidad de mejorar el acceso a los objetos de
información de la red. Son, básicamente, estructuras de organización de la información,
legibles por máquina, cuyo fin es hacer útiles los datos según las necesidades concretas
de cada servicio de información digital y según la aplicación que se les otorgue.
Existen varios catálogos de tipologías de metadatos. Una que se entiende muy bien es
la siguiente:
- Metadatos independientes de contenido: recogen información sobre la
localización del documento, fecha de creación, modificación, etc.
- Metadatos dependientes del contenido: aglutinan datos sobre la representación

y estructura de la porción de información que describen. A su vez, estos se
dividen en:
o Metadatos basados en el contenido directo, como los índices de un
documento en texto completo o el color y la forma de una imagen digital.
o Metadatos descriptivos del contenido, como los descriptores e
identificadores, que serían metadatos que contienen la descripción de un
documento sin utilizar expresamente su contenido.
De manera general, los conjuntos de metadatos emplean marcas o etiquetas, que son
pares iguales de palabras o acrónimos con un alto valor semántico y nemotécnico
encerradas por ángulos, entre las que se ubica la información estructurada. La primera
etiqueta indica que comienza una porción de información determinada, y la segunda
etiqueta, que lleva una barra oblicua, indica el fin. Estas etiquetas son fácilmente
legibles, tanto por programas informáticos como por humanos y tienen el objetivo de
presentar, estructurar e intercambiar información entre ordenadores.
Por ejemplo:
<nombre>Rafael Aleixandre Benavent</nombre>

<país>España</país>
En el año 1986 la ISO convierte en norma uno de los primeros conjuntos de reglas para
los conjuntos de metadatos, que recibieron el nombre de Standard Generalized Markup
Language, conocido comúnmente como SGML. A partir de ahí, surgen los lenguajes de
marcado, que sirven para codificar un documento mediante un conjunto de etiquetas.
En este contexto, nace el lenguaje XML (eXtensible Markup Language), que es el más
extendido y conocido, casi convertido en el estándar.
De estos dos modelos (SGML y XLM), han ido surgiendo otros lenguajes de marcas, la
mayoría para ámbitos específicos, que sirven tanto para esquematizar y distribuir
información de cualquier tipo (como el lenguaje html o xml) como para disciplinas o
áreas específicas.
A continuación, se presenta un repaso de algunos de los lenguajes de marcado y

codificaciones normalizadas más conocidos actualmente:
o HTML
Surgido a principios de los 90, el lenguaje de marcado HTML utiliza la sección cabecera
para transmitir al servidor web información acerca del documento. Toda la información
que se proporciona en la cabecera está comprendida entre la etiqueta <head> y la
etiqueta </head>. También existe una serie de etiquetas reservadas para la cabecera,
como la de <title> y </title> o la etiqueta METAKeywords, que sirve para inscribir ahí
palabras clave o freses significativas (para la indización) e indicar así a los motores de
búsqueda el contenido exacto de la web (para la recuperación) (Ejemplo en la Figura 3).
A continuación, se muestra un enlace a un vídeo explicativo (vídeo 1):
https://www.youtube.com/watch?v=10GHKjgQIR0.
Figura 3. Información proporcionada en lenguaje HTML
o Dublin Core
La Dublin Core Metadata Iniciative parte de un grupo de trabajo constituido por
bibliotecarios, investigadores en bibliotecas digitales y proveedores de información que
comenzó a funcionar en Dublin (Ohio) en 1995, con la finalidad de proporcionar
recomendaciones sobre la descripción de recursos de información y su intercambio.
Entre sus ventajas, está el haber proporcionado 15 metadatos para la descripción
sencilla de un recurso de información:
- Para su contenido: title, subject, description, source, language, relation,
coverage.
- Para la propiedad intelectual: creator, publisher, contributor, rights.
- Para el formato: date, type, format, identifier.
La versión 1.1 del conjunto de metadatos Dublin Core pasó en 2003 a ser norma
internacional bajo el número de ISO 15836:2003.
Concretamente, las etiquetas relacionadas con la indización son subject y keywords,
creator y date, que se definen de la siguiente manera:
Name: subject.
Label: subject and keywords
Definition: the topic of the content of the resource
Comment: typically, a subject will be expressed as a keyword, key phrases or
classification codes that describe a topic of the resource. Recommended to selct a value
from a controlled vocabulary or formal classification scheme.
Name: creator.
Label: creator.
Definition: an entity primarly repsonsible for making the content of the resource.
Comment: it could be a person, an organization or a service.
Name: date.
Label: date.
Definition: a date of an event in the lifecicle of the resource.

Comment: data will be associated with the creation or availability of the resource.
o EAD (Encoded Archival Description)

Surge a princicios de los 90 en la Universidad de Berkeley para crear una estructura
normalizada de datos que propicie el intercambio y acceso a instrumentos de
descripción manejados en los archivos. La EAD se compone de tres elementos
principales: “cabecer EAD” con su etiqueta <eadheader>, “preliminares” y su etiqueta
<frontmatter> y “descripción del archivo” con la etiqueta <archdesc>. De esta última,
cuelga el resto de las etiquetas que permite representar los instrumentos de descripción
de archivo.
o TEI (Text Encoding Initiative)
El TEI es una norma interdisciplinar e internacional que ayuda a bibliotecas, museos,
editores, etc., a representar toda clase de textos humanísticos para la investigación y la
enseñanza. Algunas de las etiquetas pensadas para contener el producto de la indización
son:
<keywords>
<person>
<institution>
<origDate>
<origPlace>
<country>
<region>
Una vez repasadas algunas etiquetas utilizadas por varios lenguajes de marcas para
contener el resultado de la indización, se repasarán ahora tres codificaciones
normalizadas que tienen el mismo propósito:
MARC
La Biblioteca del Congreso de los Estados Unidos desarrolló el formato LC MARC como
un conjunto de señaladores que combinan números, letras y símbolos para añadirlos a
los registros catalográficos. De esta manera, cada porción de información bibliográfica
precedida por los señaladores puede ser leída por los ordenadores.
ISAD (g)
La Norma Internacional General de Descripción Archivística ha sido elaborada por un
Comité de Normas de Descripción del Consejo Internacional de Archivos. Esta norma
constituye una guía general para la elaboración de descripciones archivísticas que
identifiquen y expliquen el contenido y el contexto de los documentos de archivo con el
objetivo de hacerlos accesibles e intercambiables.
MOREQ
En el contexto de la UE y del intercambio de datos entre administraciones, se
confecciona en el año 2001 un modelo de requisitos (MOREQ) para implantarse en un
sistema de gestión de documentos electrónicos de archivo (SGDA). En este modelo de
requisitos se destinan metadatos en los que depositar la indización:
12.4.3 Palabras clave descritas: el SGDA debe admitir la asignación de
términos incluidos en un vocabulario controlado como términos
descriptivos referentes al asunto.
12.4.22 Nombre basado en palabras clave: conviene que las

denominaciones de expedientes estén basadas en términos incluidos
en un vocabulario controlado y en relaciones extraídas de un tesauro.
Es conveniente que permita la vinculación del tesauro al cuadro de
clasificación.
12.7.2 Asunto.
 Posicionamiento web
La SEO (search engine optimization), es un conjunto de técnicas encaminadas a que una

web consiga la mejor posición en las listas ofrecidas por los motores de búsqueda para
una consulta determinada. Desde su aparición a mitad de la década de los 90, se ha
desarrollado un mercado tanto de empresas y profesionales como de programas
informáticos para aplicar estas técnicas.
Para intentar conseguir un buen posicionamiento web, hay que utilizar un numeroso
conjunto de técnicas. Estas técnicas se conocen como factores SEO y agrupan tanto a
los que hay que cumplir dentro de la página web (optimización del título, contenido,
etiquetas, etc.) como a los exógenos (PageRank, texto en los enlaces, enlaces externos
conseguidos, etc.). Términos que son habituales cuando se habla de posicionamiento
SEO, como “búsqueda de contenidos”, “títulos y palabras clave” o volumen de
búsqueda, están íntimamente relacionados no solo con la indización, sino con la
profesión en general de la información y documentación (ver vídeos 2 y 3).
https://www.youtube.com/watch?v=AavsQP3gPj4
https://www.youtube.com/watch?v=4SjQB3XdcAY
 Buscadores
La recuperación de la información en Internet se lleva a cabo por medio de los
buscadores. Estos se pueden clasificar en índices temáticos o directorios y en motores
de búsqueda.
Tabla comparativa directorios/motores de búsqueda
Descubrimiento Representación Representación Presentación

de recursos del contenido de la consulta de los
resultados
Directorios Lo realizan Clasificación Implícita Páginas
personas manual (navegación creadas antes
por categoría) de la consulta.
Motores de Lo realizan Indización Explícita Páginas
búsqueda robots de forma automática (palabras clave, creadas
automática operadores, dinámicamente
etc.) en cada
consulta.
Cada uno de los motores de búsqueda utiliza algoritmos secretos para ordenar de más
a menos relevantes los resultados devueltos por los usuarios. Un ejemplo claro es
Google, creado en el 1998 y su algoritmo creado PageRank. Se trata de un sistema
complejo basado en las redes de enlaces existentes entre las páginas web. Aunque la
totalidad de los criterios que utiliza el sistema para calcular el dato es reservada, parece
ser que tiene en cuenta la frecuencia de aparición de las palabras, su posición en el texto,
el número de enlaces que se encaminan hacia una página o la importancia de la página
que recibe y emite su voto. De esta manera, una web a la que apuntan 20 enlaces posee
en teoría menos interés que una a la que apuntan 1000. Cuando se hace una búsqueda
en Google, ocuparán los primeros puestos aquellas que tienen un PageRank alto y que,
además, coincidan con la búsqueda.
 Usuarios
A día de hoy, el uso de Internet está convirtiendo a cada usuario en un
“paradocumentalista” en potencia. Esto se debe a que los usuarios de los buscadores
(es decir, prácticamente todo el mundo) han asimilado terminología, conceptos y
prácticas que hasta los 90 eran casi exclusivos de los profesionales de la información y
documentación. De esta manera, muchos usuarios que hacen alguna búsqueda en
Internet, están familiarizados con términos como:
- Elegir palabras clave, y cuanto más específicas, mejor.
- La “entrecomillación” para conseguir concordancias exactas.
- Los operadores booleanos.
- Especificar fechas o intervalos.
Es en este punto donde el profesional de la documentación debe tomar consciencia de
su valor a la hora de comprender y gestionar la información de una manera mucho más
profunda que el usuario “común”. Se trata de contrarrestar de alguna manera este
intrusismo profesional de los “paradocumentalistas” en potencia propiciando que la
vastísima información que se encuentra en la red sea manejada una forma mucho más
cuidadosa, basada en el criterio profesional, para que pueda llegar a la sociedad de una
forma más oxigenada.

T6 - Recuperacion de La Informacion e Introduccion A La Indizacion en Internet

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

T6 - Recuperacion de La Informacion e Introduccion A La Indizacion en Internet

Cargado por

Copyright:

Formatos disponibles

TEMA 6

Relación entre indización y recuperación

2. El modelo booleano. Muy conocido y utilizados por prácticamente todos los

3. El modelo booleano extendido. Se trata de complementar el sistema anterior y

4. El modelo del espacio vectorial. Se representa en el sistema por dos listas

 La división entre documentos recuperados y no recuperados y sus características

Cuando se realiza una búsqueda en una base de datos, la colección de documentos

DOCUMENTO RELEVANTE NO RELEVANTE TOTAL

Para averiguar los grados de exhaustividad y precisión en la recuperación, se pueden

Nº de documentos relevantes recuperados

Lo que, según la tabla, sería:

Nº de documentos relevantes recuperados

Lo que viene a ser:

En relación con la exhaustividad y la precisión, también es muy importante tener en

Figura 1. Interfaz principal de PubMed donde se muestra la opción para la búsqueda

La indización en Internet: el antes y el después

Lógicamente, este “universo de la indización” está impregnado por la indización misma,

- Metadatos dependientes del contenido: aglutinan datos sobre la representación

<nombre>Rafael Aleixandre Benavent</nombre>

A continuación, se presenta un repaso de algunos de los lenguajes de marcado y

Figura 3. Información proporcionada en lenguaje HTML

Definition: a date of an event in the lifecicle of the resource.

o EAD (Encoded Archival Description)

12.4.22 Nombre basado en palabras clave: conviene que las

La SEO (search engine optimization), es un conjunto de técnicas encaminadas a que una

Descubrimiento Representación Representación Presentación

También podría gustarte