Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2. Recuperación de Información
en bases de datos documentales
j
2.1. Las bases de datos relacionales y documentales
J
Con la aparición y la expansión de la informática, las tareas de alma-
cenar, organizar, buscar y recuperar la información, especialmente cuando
ésta es voluminosa, se han encomendado de forma generalizada a los orde-
nadores. Se extiende el concepto y la expresión Base de Datos (BD) para
referirnos a una colección de datos organizados, referidos a una misma
clase de objeto o entidad: personas, organizaciones, productos, herramien-
j
1
tas, acontecimientos, documentos, etc. Los datos referidos a cada obje-
to individual conforman un registro en la BD, y normalmente todos los
registros tienen una misma estructura, con un campo para recoger el valor
l
asociado a cada variable o característica del objeto concreto que describe
el registro.
Simplificando, el valor o contenido de un campo puede ser un número
(medidas, cantidades, fechas y otros tipos de datos en los que su ordenación
tiene un significado preciso), una cadena alfanumérica (códigos, nombres
de personas, de organizaciones, de lugares, de objetos ... ), o un texto en sen- J
tido amplio: una expresión propia del lenguaje humano (títulos, resúmenes,
discursos ... ).
l
1
1
j
:;
contenido. Ello hace que se distingan dos grandes tipos de bases de datos,
que se gestionan con aplicaciones informáticas muy diferentes:
• Bases de datos documentales, de contenido fundamentalmente textual.
La así llamada Recuperación de Información (RI) es una disciplina
que estudia los fenómenos propios de este ámbito. Las aplicaciones
informáticas que manejan estas BD suelen denominarse Sistemas de
Recuperación de Información (SRI), Sistemas de Gestión de Bases de
Datos Documentales (SGBDD) o Sistemas de Gestión Documental
(SGD), aunque la palabra «sistemas» se usa con cierta impropiedad,
siendo preferible el término .:.:software». Cuando buscamos en Goo-
gle, estamos buscando en una enorme base de datos documental.
• Bases de datos, referenciadas normalmente como relacionales, orien-
tadas a objetos, etc., concebidas preferentemente para manejar datos
numéricos y alfanuméricos, organizados con frecuencia en diver-
sas tablas interrelacionadas. Por contraposición, podemos hablar de
Recuperación de Datos para referirnos a las operaciones relacionadas
con la búsqueda sobre estas BD. Las aplicaciones informáticas que
las manejan suelen denominarse Sistemas de Gestión de Bases de
Datos (SGBD), con el añadido, en ocasiones, de relacionales (SGB-
DR), orientadas a objetos, etc., precisando la lógica específica usada
para organizar los datos. Ejemplos de aplicaciones de este tipo son
Access de Microsoft o el módulo de bases de datos de Openüffice o
Libreüffice.
Se usa la expresión base de datos documental, aunque en sentido estric-
to no contenga o se refiera a «documentos» tal como se entienden en la
administración o el comercio, cuando el contenido de sus registros es prin-
cipalmente texto, más o menos estructurado en campos. Si los registros
contienen solo datos de identificación y de descripción de esos documentos
en sentido amplio, se trataría de una base de datos referencial, puesto que
contiene referencias a los documentos; si además de (o incluso en lugar de)
esos datos se recoge el texto del documento, hablamos de bases de datos
de texto completo (jull-text). En una base de datos bibliográfica, sea refe-
rencial o de texto completo, un registro recoge una representación de una
obra publicada (libro, artículo ... ), de la que se indican, mediante distintos
campos, datos como el autor, el título, la fecha de publicación, etc.
Las BD documentales tienen muchas particularidades frente a las orien-
tadas a datos. Por ejemplo, puede existir un único campo por registro, como
13 El El
¡j'] []
0 D
El El éil
[] Cl SJwD!§I:z¡D
D ::;:¡ @DEl ':J[J
'
CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 21 7 1
j
Tabla 3. Operador relacional que permite construir un criterio de búsqueda sobre
campos textuales. En la columna «Operador» debe entenderse que «el registro es
recuperado. si el campo (o el registro) ... el término de búsqueda (palabra o raíz)».
Universo Id tJ El El w El
:1l 71 !J
E)
G'l
ª
[J
El ª
D
:il El D
f.d dl
D :3
Universo ¡;¡¡
D D [J J
@¡j[)[j
Ll
::3
.. [j El A
El @
¡;)] [')
o a
@l o
Bl J~ El
• A XOR B: Debe cumplirse uno cualquiera pero sólo uno de los dos
criterios, ya que es un O exclusivo (véase la figura 12). Ejemplo:
«obras de Einstein o que traten sobre la relatividad (pero no nos inte-
resan los escritos de Einstein sobre la relatividad porque, por ejemplo,
B ya los conocemos)»: «Einstein XOR relatividad». No todos los SRI
disponen de este operador, poco útil en RI y que además puede susti-
tuirse por combinaciones de los demás operadores.
Universo El él
@IJ@Gl
Q g
[U
[U ~
td fil
Gl El
[j IJ
En [iJ
En relación con el operador NO, hay que hacer dos precisiones: la pri-
mera es que, a diferencia de lo que sucede con Y, O y XOR, no es lo mismo
A NO B que B NO A. Ejemplo de contraste: «obras sobre la relatividad que
no sean de Einstein»: «relatividad NO Einstein». Obsérvese la diferencia
de la figura 14 con la anterior.
[]!} éJ D a
d
D O [;:¡
!11
í;J 8 D El
Figura 16. Tres criterios de búsqueda generan tres subconjuntos del universo de
la BD, y determinan hasta ocho grupos de registros diferentes; las combinaciones
de operadores lógicos determinarán cuáles de ellos le interesan al usuario. En la
figura, resultado de la búsqueda A Y B Y C.
Universo o El El El
D Dw 81 dD
D
D D
u
D o El
D D D
0 D
Universo D 8l D 9 D
g)] t;¡t:JQ ¡¡¡¡
tl Qgi'd ;;Jg ___ El w
D 0
DD
. D
. B El
21 Cl
a 8l tl
D :2 (J
D úiJ
D 8 D O
D
D 8 2l D
o a D El
Por tanto, en general sobre cualquier BD, cuando tenemos más de dos
criterios de búsqueda, para indicar el orden de proceso de los operadores
1
Por una parte, están los ficheros de texto en formatos distintos de HTML:
por ejemplo, documentos de Word, de Excel, de Powerpoint, ficheros PDF,
ficheros de texto plano (con extensiones como .txt, .csv, etc.). Muchos de
esos formatos son también recuperables en buena parte por los motores de
búsqueda genéricos más conocidos, que tratamos en otro epígrafe de este
capítulo.
También mencionaremos aquí, entre otros tipos de recursos que pueden
ser buscados:
• Programas y aplicaciones informáticas de todo tipo, ya sean comer-
ciales, gratuitas, de licencia libre, etc., entre los que indicamos a
modo de ejemplo Sourceforge.
• Contenidos (de forma parcial o total) de libros publicados original-
mente en forma impresa, así como a artículos de revistas científicas y
académicas: en algunos casos, solo a los títulos y resúmenes (tenien-
do que pagar, o bien, acceder a una institución que sí pague por el
texto completo de los mismos).
• Buena parte de los motores de búsqueda genéricos, así como diver-
sos recursos especializados, ofrecen mapas y planos de casi todo el
mundo.
• Existen también recursos que ofrecen la búsqueda de los mensajes
publicados en listas de distribución (como las existentes en la red
académica española Rediris ), o en los perfiles públicos de redes
sociales que tienen su contenido accesible sin restricciones, como
Twitter, etc.
• Directorios o índices.
• Motores de búsqueda (en inglés, search engines).
• Metabuscadores.
• Multibuscadores.
• Otras herramientas: agentes inteligentes.
4.3.1. Directorios
• Número de enlaces que tienen como destino una página dada (Excite,
Google ... ), y número de enlaces que tiene como destino las páginas
que remiten a la página dada (Google). Generalmente este criterio
suele conocerse como «popularidad». Google lo usa como base para
su algoritmo PageRank, pero hoy usa además otros algoritmos.
• Existencia de una reseña de la página en un directorio.
• Aparición del término en elementos meta de HTML o algún otro
mecanismo de metadatos.
• Activación de un enlace de la lista de resultados por parte de otros
usuarios que han hecho antes la misma búsqueda. Por ejemplo, si
otros usuarios que han hecho previamente la misma búsqueda han
seleccionado en su mayoría el tercer resultado, el motor de búsqueda
4.3.3. Metabuscadores
Un metabuscador es una herramienta que, con una única interfaz y
estrategia de búsquedas, permite lanzar una misma búsqueda sobre varios
motores distintos. El metabuscador no trabaja sobre una base de datos pro-
pia, sino que realiza, simultáneamente, varias búsquedas en diferentes bus-
cadores, utilizando las bases de datos creadas por cad.a uno de ellos, y luego
combina todos los resultados obtenidos, en una lista también única.
Son útiles cuando un buscador concreto no encuentra nada sobre un
tema determinado. Se podría pensar que constituyen una solución óptima,
pero el metabuscador tiene su propio lenguaje de búsqueda que luego ha de
traducir a los lenguajes específicos de cada motor de búsqueda. Por ello no
dispone de las opciones de búsqueda particulares de cada motor.
Un metabuscador suele funcionar siguiendo estos pasos: primero lanza
la búsqueda formulada por el usuario a sus motores o directorios asociados
componiendo una lista de resultados, que representan, en teoría, las mejores
respuestas a la pregunta. Posteriormente pueden llevar a cabo otras tareas,
como asignar a los resultados un valor de relevancia y ordenar la lista según
esos valores, formatear los resultados de forma consistente, verificar la acce-
sibilidad del recurso o eliminar enlaces que ya no son válidos. La lista final
suele indicar el buscador que ha generado la respuesta y permitir agrupar los
resultados por ese criterio. Como ejemplos, puedan citarse los siguientes:
• Metacrawler: de Indospace Inc .. Busca sobre Google, Yahoo!, Yan-
dex. Permite usar una búsqueda simple (introduciendo solo los tér-
minos de búsqueda y el tipo de recursos: página web, imagen, audio,
vídeo) o avanzada,
• ZapMeta: indica que busca sobre «Yahoo, Microsoft, Gigablast, Alta-
vista, Entireweb, etc ... »; al mostrar los resultados no indica su proce-
dencia; mantiene un etiquetado social.
4.3.4. Multibuscadores
Un multibuscador es, en realidad, una página única con una lista de
casillas de búsqueda, cada una de las cuales está conectada a un buscador
distinto. El usuario, por lo tanto, puede elegir, desde una única página, qué
búsqueda hace y en qué buscador la realiza. Solo es posible realizar una
búsqueda en un buscador a la vez.
Los buscadores a los que da acceso pueden ser tanto generalistas como
especializados (en blogs, diccionarios, vídeos, imágenes, etc.), tanto globa-
les como de organizaciones concretas. Sirvan como ejemplo los siguientes:
• Langenberg: dispone de formularios diversos, uno para cada servicio
de búsqueda.
• LightSwitch: tiene un único formulario con un menú desplegable de
donde seleccionar el motor de búsqueda.
• 1-Page Multisearch: en Bjorgul o en AlfaSeek. Este recurso incluye
tanto un multibuscador como un metabuscador.
----------
zar expresamente las búsquedas. Como ejemplo Copemic Agent Personal,
una aplicación gratuita de Copernic Inc.
--~------______)~----------------------