Está en la página 1de 31

La navegación guiada o búsqueda por facetas proporciona al usuario

múltiples campos de metadatos y valores para que pueda seleccionar opcio-


nes de refinamiento y clasificación automática de los resultados. Los resul-
tados de una consulta pueden quedar agrupados en categorías que permiten
que el usuario penetre en los resultados de la búsqueda, marcando un valor
en cualquiera de los campos. Cada faceta muestra el número de aciertos en
cada categoría. Este tipo de búsqueda no implica presentar los resultados en
una jerarquía y quien interroga un sistema con estas funcionalidades puede
descomponer los resultados con múltiples criterios.

2. Recuperación de Información
en bases de datos documentales
j
2.1. Las bases de datos relacionales y documentales
J
Con la aparición y la expansión de la informática, las tareas de alma-
cenar, organizar, buscar y recuperar la información, especialmente cuando
ésta es voluminosa, se han encomendado de forma generalizada a los orde-
nadores. Se extiende el concepto y la expresión Base de Datos (BD) para
referirnos a una colección de datos organizados, referidos a una misma
clase de objeto o entidad: personas, organizaciones, productos, herramien-
j
1
tas, acontecimientos, documentos, etc. Los datos referidos a cada obje-
to individual conforman un registro en la BD, y normalmente todos los
registros tienen una misma estructura, con un campo para recoger el valor

l
asociado a cada variable o característica del objeto concreto que describe
el registro.
Simplificando, el valor o contenido de un campo puede ser un número
(medidas, cantidades, fechas y otros tipos de datos en los que su ordenación
tiene un significado preciso), una cadena alfanumérica (códigos, nombres
de personas, de organizaciones, de lugares, de objetos ... ), o un texto en sen- J
tido amplio: una expresión propia del lenguaje humano (títulos, resúmenes,
discursos ... ).
l
1

La búsqueda sobre campos de contenido textual, frente a los que con-


tienen valores numéricos o alfanuméricos, tiene unas peculiaridades que
imponen un enfoque distinto a la hora de organizar lógicamente las BD con
vistas a que los mecanismos de búsqueda sean adecuados para este tipo de

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 213 j


j

1
j
:;
contenido. Ello hace que se distingan dos grandes tipos de bases de datos,
que se gestionan con aplicaciones informáticas muy diferentes:
• Bases de datos documentales, de contenido fundamentalmente textual.
La así llamada Recuperación de Información (RI) es una disciplina
que estudia los fenómenos propios de este ámbito. Las aplicaciones
informáticas que manejan estas BD suelen denominarse Sistemas de
Recuperación de Información (SRI), Sistemas de Gestión de Bases de
Datos Documentales (SGBDD) o Sistemas de Gestión Documental
(SGD), aunque la palabra «sistemas» se usa con cierta impropiedad,
siendo preferible el término .:.:software». Cuando buscamos en Goo-
gle, estamos buscando en una enorme base de datos documental.
• Bases de datos, referenciadas normalmente como relacionales, orien-
tadas a objetos, etc., concebidas preferentemente para manejar datos
numéricos y alfanuméricos, organizados con frecuencia en diver-
sas tablas interrelacionadas. Por contraposición, podemos hablar de
Recuperación de Datos para referirnos a las operaciones relacionadas
con la búsqueda sobre estas BD. Las aplicaciones informáticas que
las manejan suelen denominarse Sistemas de Gestión de Bases de
Datos (SGBD), con el añadido, en ocasiones, de relacionales (SGB-
DR), orientadas a objetos, etc., precisando la lógica específica usada
para organizar los datos. Ejemplos de aplicaciones de este tipo son
Access de Microsoft o el módulo de bases de datos de Openüffice o
Libreüffice.
Se usa la expresión base de datos documental, aunque en sentido estric-
to no contenga o se refiera a «documentos» tal como se entienden en la
administración o el comercio, cuando el contenido de sus registros es prin-
cipalmente texto, más o menos estructurado en campos. Si los registros
contienen solo datos de identificación y de descripción de esos documentos
en sentido amplio, se trataría de una base de datos referencial, puesto que
contiene referencias a los documentos; si además de (o incluso en lugar de)
esos datos se recoge el texto del documento, hablamos de bases de datos
de texto completo (jull-text). En una base de datos bibliográfica, sea refe-
rencial o de texto completo, un registro recoge una representación de una
obra publicada (libro, artículo ... ), de la que se indican, mediante distintos
campos, datos como el autor, el título, la fecha de publicación, etc.
Las BD documentales tienen muchas particularidades frente a las orien-
tadas a datos. Por ejemplo, puede existir un único campo por registro, como

214 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


en ciertas BD de texto completo en las que no se distinguen secciones dis-
tintas en él. O, aun habiendo varios campos, se puede buscar una palabra
en cualquiera de ellos, sin indicar en cuál. Así, cuando usamos un motor de
búsqueda como Google no tenemos que precisar en qué lugar de la pági-
na web deben estar las palabras buscadas, aunque podríamos precisar, por
ejemplo, si deben figurar en el título, en las anclas, en el URL o en el texto.
Por otro lado, en las BD documentales el resultado de la búsqueda sue-
le mostrarse en dos o tres fases o niveles:
l. Se informa al usuario del número de registros que cumplen los criterios
de búsqueda establecidos, y se crea un conjunto lógico de documentos
que puede usarse posteriormente como un nuevo criterio para combi-
narlo con otros. Este paso es habitual al buscar en BD especializadas,
pero no existe en los motores de búsqueda de la web como Google.
2. Se accede a algunos o todos los registros encontrados, a petición del
usuario, para mostrar algunos campos especialmente significativos;
para búsquedas temáticas es típico pedir el título. Al comienzo de la
búsqueda, sirve para comprobar si los registros encontrados podrían
satisfacer la necesidad de información o si habría que replantear-
se los criterios de búsqueda. Y ya refinada la búsqueda, sirve para
seleccionar y mostrar los registros que más probablemente podrían
contener la información buscada. Una búsqueda en Google u otro
motor ofrece directamente un listado de este tipo con unos pocos
datos de los registros encontrados, suficientes para que el usuario se
haga una idea de lo que contienen.
3. Se accede a los registros seleccionados por el usuario, y de su conte-
nido se muestran todos los campos que el usuario cree que satisfarán
su necesidad de información; en un BD bibliográfica, típicamente
la referencia bibliográfica completa y el resumen o el texto com-
pleto, si existen. En un motor de búsqueda de la web, esta fase se
corresponde con el acceso a cualquiera de los resultados que hemos
obtenido en el listado.

2.2. Criterios de búsqueda


Para buscar información en una BD, el proceso general consiste, simpli-
ficando, en extraer aquellos registros y solo aquellos que creemos que con-
tienen la respuesta que se necesita. Para ello debemos expresar al menos un

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 215


criterio de búsqueda que deberán cumplir los registros extraídos, comparan-
do el contenido de los registros con un valor que aportamos como referencia.
Por ejemplo, si de una BD de alumnos matriculados en una universidad
queremos extraer los registros de los residentes en Getafe, compararíamos
el valor «Getafe» (o el código correspondiente, si el valor está codificado)
con el contenido del campo «Residencia» de todos los registros. En este
caso, queremos que ambos valores, el que damos en el criterio de búsqueda
y el que figura en el campo, sean iguales. Podríamos expresarlo de for-
ma abstracta como «Residencia= Getafe», pero la forma concreta en que
lo haremos en el sistema es muy variable dependiendo del tipo de inter-
faz que se use: en algunos podría introducirse directamente así; en otros,
podríamos tener un menú desplegable para elegir el campo, «Residencia»,
otro para elegir el operador,«=», y finalmente una caja de búsqueda donde
escribimos el valor buscado, «Getafe».
Como veremos después, en campos de contenido textual, más propios
de una BD documental, construimos un criterio de búsqueda simplemente
aportando una palabra, un término de búsqueda, que queremos que apa-
rezca en algún campo concreto o, aún más simple, en cualquier lugar del
registro. En lugar de una palabra podría expresarse la raíz de una familia de
palabras, si al indizar la BD se aplican técnicas de stemming o reducción
a la raíz, pero en general no pueden buscarse «cadenas de caracteres» (o
strings) como tales, que incluyan por ejemplo la parte final de una palabra
y el comienzo de otra.
En cualquier caso, lo que hacemos al aplicar un criterio de búsqueda
es extraer de la BD (nuestro «universo», es decir, el conjunto de todos los
registros de la BD) un subconjunto de registros que incluye aquellos que
cumplen tal criterio (véase la figura 8).
Universo 0 El B El El t1 w
fJ"[J¡gOJ GIL!
LJ
[] Gl
El
8J El El

13 El El
¡j'] []
0 D
El El éil
[] Cl SJwD!§I:z¡D
D ::;:¡ @DEl ':J[J

Figura 8. Un criterio de búsqueda selecciona un subconjunto de registros del


universo de la BD.

216 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


2.3. Operadores relacionales y particularidades
de la búsqueda sobre texto
Con valores numéricos, alfanuméricos y fechas, más propios de BD
orientadas a datos que a texto, diversos operadores relacionales permiten
especificar qué tipo de relación debe darse entre el dato que aportamos y el
contenido del campo. Los habituales son:

Tabla 2. Operadores relacionales que permiten construir un criterio de búsqueda


sobre datos numéricos, alfanuméricos o de fechas. En la columna «Operador»
debe entenderse que «el registro es recuperado si el valor que toma el campo es ...
el valor de referencia».

Igual que = «alumnos residentes en Residencia = Getafe


Getafe»
Distinto que :to<> «alumnos residentes Residencia 7: Madrid
fuera de Madrid»
Mayor que > «alumnos con más de NSuspensos > 2
dos suspensos»
Mayor o igual que ::::o>= «alumnos de 21 años o Edad::::: 21
más»
Menor que < «alumnos con nota de NotaJ\cceso < 8
acceso inferior a 8»
Menor o igual que ~o<= «alumnos nacidos en FNac ~ 19891231
1989 o antes»

Pero en general, sobre campos cuyo contenido es texto, mayoritarios o


únicos en BD documentales, estos operadores tienen escasa o nula utilidad,
y los criterios de búsqueda que construimos se basan en la presencia de
determinadas palabras o raíces en un campo dado (o en cualquier campo).
El operador relacional sería contiene («contiene como elemento», en teoría
de conjuntos), entendiendo que un campo «contiene» esa palabra o raíz
dentro del conjunto de palabras que figuran en él.

'
CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 21 7 1

j
Tabla 3. Operador relacional que permite construir un criterio de búsqueda sobre
campos textuales. En la columna «Operador» debe entenderse que «el registro es
recuperado. si el campo (o el registro) ... el término de búsqueda (palabra o raíz)».

Contiene 3 «obras con 'economía' Economía[Título]


en el título»
«obras con la palabra Economía
'economía'»

De nuevo advertimos que la forma concreta de introducir esa expresión


de búsqueda en el sistema puede ser muy diferente: quizá haya que escribir
«Econorrúa[Título]» o «econorrúa IN Título», o bien elegir en un menú
desplegable el campo, «Título», y escribir en una caja de texto el valor
buscado, «Econorrúa». En BD documentales es normal buscar un término
en cualquier campo del registro. Basta para ello no indicar un campo o
seleccionar en un desplegable la opción <<en cualquier campo» o similar. O
sea, como cuando en Google u otro motor buscamos una única palabra, sin
más indicaciones.

2.4. Criterios de búsqueda múltiples

Pero en pocas ocasiones la necesidad de información puede expresarse


con un único criterio de búsqueda. Es más habitual usar simultáneamente
varias condiciones, varios criterios, para recuperar los registros que nos
interesan. Esto sucede con campos tanto numéricos como textuales, y por
consiguiente en BD tanto relacionales como documentales. Sin embargo,
nos centraremos a partir de ahora en éstas últimas y por tanto en la óptica
de la RI.

Cuando expresamos dos criterios de búsqueda hemos de expresar tam-


bién si deben cumplirse ambos, o cualquiera de ellos, o si uno debe cumplir-
se y el otro no. Cada criterio forma en la BD un subconjunto de registros,
que incluye aquellos que lo cumplen. Debemos indicar qué parte o partes
de la combinación de los dos conjuntos nos interesa, y para ello recurrimos
a la lógica booleana y situamos entre los dos criterios un operador lógico
(o booleano) (véase la figura 9).

218 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


Figura 9: Dos criterios de búsqueda, A y B, generan dos subconjuntos de regis-
tros en la BD, y determinan hasta cuatro grupos de registros diferentes; los opera-
dores lógicos determinarán cuáles le interesan al usuario.

2.5. Operadores lógicos o booleanos en recuperación


de información

Los operadores lógicos básicos son Y, O y NO (o bienAND, OR y NOT),


aunque citaremos también otro, XOR, disponible en algunos sistemas. Los
ilustramos con ejemplos típicos de una BD documental y no limitamos la
búsqueda a campos, aunque obviamente puede hacerse si los hay.
• A Y B: Deben cumplirse ambos criterios a la vez. Como ejemplo,
«obras de Einstein sobre la relatividad»: «Einstein Y relatividad». Su
resultado es la intersección de los conjuntos de registros, y se ilustra
en la figura 10. La búsqueda de rangos numéricos, como cuando en
Google buscamos «2010 ... 2013», es una variante de lógica Y: busca-
mos valores iguales o superiores al límite inferior Y iguales o inferio-
res al superior.

Universo Id tJ El El w El
:1l 71 !J
E)
G'l
ª
[J
El ª
D
:il El D

f.d dl
D :3

Figura 10. Registros seleccionados por la búsqueda A Y B.

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 219


• A O B: Debe cumplirse al menos uno de los dos criterios, pero pue-
den cumplirse ambos, ya que es un O no exclusivo. Es la unión de los
conjuntos, y se ilustra en la figura 11. Ejemplo: «obras de Einstein o
que traten sobre la relatividad»: «Einstein O relatividad». Por ejem-
plo, en los motores de búsqueda Google, Bingo Yahoo escribiríamos
«Einstein OR relatividad».

Universo ¡;¡¡
D D [J J
@¡j[)[j
Ll
::3
.. [j El A
El @
¡;)] [')

o a
@l o
Bl J~ El

Figura 11. Registros seleccionados por la búsqueda A O B.

• A XOR B: Debe cumplirse uno cualquiera pero sólo uno de los dos
criterios, ya que es un O exclusivo (véase la figura 12). Ejemplo:
«obras de Einstein o que traten sobre la relatividad (pero no nos inte-
resan los escritos de Einstein sobre la relatividad porque, por ejemplo,
B ya los conocemos)»: «Einstein XOR relatividad». No todos los SRI
disponen de este operador, poco útil en RI y que además puede susti-
tuirse por combinaciones de los demás operadores.

Universo El él
@IJ@Gl
Q g
[U
[U ~

td fil
Gl El
[j IJ
En [iJ

Figura 12. Registros seleccionados por la búsqueda A XOR B.

• A NO B: Debe cumplirse sólo el primer criterio. Representa la dife-


rencia de los conjuntos (véase la figura 13). Ejemplo: «obras de Eins-
tein que no traten sobre la relatividad»: «Einstein NO relatividad».

220 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


Por ejemplo, en el motor de búsqueda Bing, podemos escribir «Eins-
tein NOT relatividad»; en Google y Yahoo el equivalente sería «Eins-
tein -relatividad».

Universo "' B 0 !Y ¡g Sí e;¡ [l [l


"' El [l [3
D u Id g
S
D El El
Zl 3
El D
0 i:J

Figura 13. Registros seleccionados por la búsqueda A NO B.

En relación con el operador NO, hay que hacer dos precisiones: la pri-
mera es que, a diferencia de lo que sucede con Y, O y XOR, no es lo mismo
A NO B que B NO A. Ejemplo de contraste: «obras sobre la relatividad que
no sean de Einstein»: «relatividad NO Einstein». Obsérvese la diferencia
de la figura 14 con la anterior.

Figura 14. Registros seleccionados por la búsqueda B NO A.

La segunda precisión es que en RIel operador NO se usa como binario,


esto es, que actúa sobre dos operandos, dos conjuntos, en lugar de ser una-
rio. Usado en su forma natural unaria, NO A (como en «obras que no traten
sobre relatividad»: «NO relatividad»), generalmente recuperaría muchos
registros, de manera que los conjuntos, y por tanto los archivos temporales,
serían muy grandes (véase la figura 15). En sistemas que permiten usar el
NO unario, para usarlo como binario se expresará como A Y NO B; así
sucedía, por ejemplo, con el motor de búsqueda de AltaVista.

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 221


Figura 15. Registros seleccionados por la búsqueda NO A (operador NO unario ).

Recordamos que la forma de introducir la expresión de búsqueda en el


sistema dependerá de la interfaz. Quizá podamos escribirla directamente,
pero es habitual encontrar dos (o más) cajas de texto en las que escribimos
los términos, y un menú desplegable entre ellas que nos permite seleccionar
el operador booleano deseado.

2.6. Uso de más de dos criterios de búsqueda

Con frecuencia expresar nuestra necesidad de información implica


usar más de dos criterios de búsqueda. Por ejemplo, «obras de Einstein
sobre la relatividad especial» podríamos expresarla como «Einstein Y
relatividad Y especial». Podemos representarlo gráficamente como en la
figura 16.

Universo ¡;;¡ !il g El ¡;;¡ a


:8f1l!D[J g
J
J !il i3
!S !) :J
[) hl Q
[j 13 il
g [j

[]!} éJ D a
d
D O [;:¡
!11
í;J 8 D El

Figura 16. Tres criterios de búsqueda generan tres subconjuntos del universo de
la BD, y determinan hasta ocho grupos de registros diferentes; las combinaciones
de operadores lógicos determinarán cuáles de ellos le interesan al usuario. En la
figura, resultado de la búsqueda A Y B Y C.

222 TÉCNICAS DE BÚSQUEDA V USO DE LA INFORMACIÓN


2.6.1. Paréntesis que indican el orden de proceso
Por la naturaleza de la lógica Y del ejemplo anterior, o de la lógica O,
no hay que precisar en qué orden deben procesarse los operadores. Es igual
«(A Y B) Y C» que «A Y (BY C)», igual que para la suma es indiferente
«(2 + 3) + 4» o «2 + (3 + 4)», o para la multiplicación, «(2 x 3) x 4» o
«2 x (3 x 4)». Incluso es indiferente el orden en que expresamos los ope-
randos, «A Y BY C>>, «BY A Y C», etc., como es indiferente escribir
«2 + 3 + 4», «2 + 4 + 3», etc., o «2 x 3 x 4», «2 x 4 x 3», etc.
Pero en otros casos no pasa igual. Con el operador NO binario hemos
visto diferencias incluso cuando sólo hay dos operandos y un único opera-
dor, como pasa con la resta o la división. Por otro lado, si combinamos Y
y O en una misma búsqueda, como en «A Y B OC», el resultado cambia
si el proceso es «(A Y B) OC>> o si es «A Y (B OC)»; las figuras 17 y 18
ilustran la diferencia.

Universo o El El El
D Dw 81 dD
D
D D
u
D o El

D D D
0 D

Figura 17. Registros seleccionados por la búsqueda A Y (B OC).

Universo D 8l D 9 D
g)] t;¡t:JQ ¡¡¡¡
tl Qgi'd ;;Jg ___ El w
D 0
DD
. D
. B El
21 Cl
a 8l tl
D :2 (J
D úiJ
D 8 D O
D
D 8 2l D
o a D El

Figura 18. Registros seleccionados por la búsqueda (A Y B) O C.

Por tanto, en general sobre cualquier BD, cuando tenemos más de dos
criterios de búsqueda, para indicar el orden de proceso de los operadores

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 223


2.11. Otras opciones de búsqueda en bases de datos
documentales

2.11 .1 . Truncamiento y comodines


Otra característica del lenguaje humano que tiene repercusión en las
opciones de búsqueda sobre texto es que palabras distintas que están semán-
ticamente próximas pueden tener un gran parecido. En muchas lenguas las
palabras cambian para indicar variantes corno género y número, persona,
tiempo y modo verbal, caso de la declinación, modo, etc. Estas formas
diversas comparten una raíz o lexema, precedida de prefijos o seguida de
sufijos. Además, en el lenguaje humano pueden generarse nuevas palabras
por la unión de otras.
Por ello es útil contar con mecanismos que permitan, con una sola
expresión, buscar a la vez toda una familia de palabras. Así, en una planti-
lla, patrón o máscara, expresamos la parte invariable compartida por esa
familia de palabras, y nos referimos a la parte variable por medio de un
indicador. Los signos indicadores de la parte variable son diferentes según
la aplicación que usemos; para los ejemplos usaremos los propios de BRS.
Tenemos un par de formas fundamentales:
• Comodín (?): en su lugar debe haber un carácter cualquiera y solo
uno. Por ejemplo, «eusk?ra» recuperaría registros en los que aparecie-
ra «euskera» o «euskara», pero no «euskra»; «wom?n» lo haría con
~~woman» y «Women»; «eco?o?ia» con «economía» y «ecología».

• Truncamiento ($): en su lugar puede haber cero, uno o más caracte-


res. Por ejemplo, «biblioteca$» recuperaría registros en que aparecie-
ra cualquier palabra que comience por «biblioteca», incluyendo esta
misma palabra. Otros indicadores habituales para indicar el trunca-
miento son el asterisco (*) y la interrogación (?).
El truncamiento, según la aplicación usada, puede tener también diver-
sas opciones. Así, según el alcance, puede ser cerrado o abierto según si
limitamos o no el número máximo de caracteres que puede haber en el
lugar del indicador (por ejemplo en la forma $n). Y según la posición de la
parte variable, puede ser a la derecha (incluiríamos palabras que empiezan
por una raíz), la variedad habitual y a veces única en lenguas como el espa-
ñol, a la izquierda (terminaciones), interno (palabras que comienzan y ter-
minan igual) o bilateral (palabras que contienen la parte fija de la plantilla).

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 233


2.12.3. Relación entre exhaustividad y precisión

No basta que el SRI sea exhaustivo, lo que es fácil si el resultado inclu-


ye casi todos los documentos de la BD y estos no están ordenados por rele-
vancia, o precisión, lo que es fácil si el resultado incluye sólo uno o unos
pocos documentos especialmente relevantes. En general, el usuario buscará
a la vez la máxima exhaustividad y la máxima Precisión, o bien un punto
de equilibrio que dependerá de sus necesidades particulares. Por ejemplo,
un periodista que necesita información básica sobre un país remoto que por
alguna razón es noticia, seguramente no necesite todos los documentos de
la BD que traten sobre ese país y sí quiera ver uno o unos pocos que muy
probablemente tienen la información que necesita~ si busca en un sistema
que intenta ordenar los resultados por relevancia, corno hacen los motores
de búsqueda en la web, mirará solo los primeros resultados. En cambio,
un investigador que hace su tesis doctoral o escribe un artículo científico,
seguramente sí necesite conocer todo lo publicado (al menos en las fuentes
más importantes), directa o indirectamente relacionado con el terna de su
investigación. Un abogado que busque la jurisprudencia aplicable a un caso
tendrá también necesidad de una exhaustividad máxima.
Debido a la naturaleza de los procesos involucrados en el almacenamien-
to y recuperación de información, la situación ideal de exhaustividad y pre-
cisión totales no se da nunca. Por el contrario, empíricamente se demuestra
que ambas medidas están inversamente relacionadas: si se intenta aumentar
el valor de una, el de la otra disminuye. Por ejemplo, si se intenta ganar
exhaustividad (recuperando cada vez más documentos relevantes), ello se
consigue a costa de perder precisión (cada vez es mayor la proporción de
documentos irrelevantes entre los recuperados). Por lo mismo, si la preci-
sión de una búsqueda es alta puede sospecharse una baja exhaustividad, y
viceversa. Algo que debernos tener en cuanto cuando hacernos cualquier
búsqueda en cualquier SRI.

3. Herramientas de búsqueda en las bibliotecas

En este epígrafe se analizan las herramientas de búsqueda específicas


de las bibliotecas que permiten buscar en los diferentes recursos de uno en
uno o en todos ellos de forma simultánea.

240 TÉCNICAS DE BÚSQUEDA V USO DE LA INFORMACIÓN


3.1. El catálogo

Sin duda alguna, la herramienta de búsqueda principal y primigenia


de las bibliotecas es el catálogo. Al comienzo, fueron simplemente listas
(algunas veces en forma de libro) en las que se recogían los documentos
que tenía la biblioteca. Cuando las bibliotecas comenzaron a tener colec-
ciones con un cierto volumen, ese tipo de catálogos dejó de ser útil y fue
entonces cuando aparecieron los catálogos en fichas, manuales o mecano-
grafiadas (todavía se pueden ver en instituciones de larga tradición, como la
Biblioteca Nacional de España). El objetivo era mejorar la recuperación de
la información y encontrar lo que se necesitaba con mayor agilidad.

Con la irrupción de las nuevas tecnologías a finales de los años 80,


los catálogos de bibliotecas evolucionaron hacia otras formas y medios
de acceso: se rompieron las barreras físicas. Es entonces cuando aparecen
los Catálogos de Acceso Público en Línea (Online Public Access Cata-
lag) u OPAC. Los OPACs, multiplicaron las posibilidades de las búsque-
das ya que constituyen una base de datos documental (véase el epígrafe
anterior).

Pero, sean un tipo de catálogos u otros, lo que hacen es centrarse en la


descripción bibliográfica y en la localización de los documentos impresos
y audiovisuales que se suelen consultar o prestar en una biblioteca. De esta
forma, no todos los documentos están presentes en ellos. Se está haciendo
referencia al caso de un tipo documental muy habitual en el ámbito acadé-
mico, como es el artículo publicado en revistas científicas, claro ejemplo
de los grandes olvidados de los catálogos. En ellos, como mucho se pue-
de conseguir la noticia de los volúmenes y números que de una revista
hay depositados en la biblioteca, pero es raro poder recuperar información
bibliográfica de un artículo científico. Para que los usuarios puedan llegar
a esa parte de la colección de la biblioteca, necesitan plantear su búsqueda
en otros recursos como bases de datos referenciales, que se producen por
diferentes instituciones, con objetivos distintos, lo que requiere de un pro-
ceso constante de cambio de interface de búsqueda. Se menciona el caso
de los artículos de revista y su poca presencia en los catálogos, aunque esa
circunstancia afecta también a otros tipos documentales, de manera similar
ocurre con los diferentes trabajos o comunicaciones presentadas a congre-
sos. Para resolver esa circunstancia existen otras herramientas que vamos a
analizar en los próximos epígrafes.

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 241


de acuerdo a las sugerencias asociadas con los metadatos dentro de los
resultados recuperados (Popp, 2012). Algunas facetas pueden ser relativas
al formato de los resultados (vídeo, música, material impreso, tesis, etc.),
al idioma de los documentos, a la fecha de publicación, a la disponibilidad
en diferentes sedes de la biblioteca, por indicar algunas. Con esas facetas el
usuario puede ir limitando todas sus prioridades, hasta que los resultados se
ajusten a lo que está buscando. Más allá de las facetas, algunas herramien-
tas también incluyen en esas partes una nube de etiquetas con los términos
más frecuentes recogidos en los resultados.
Futuros estudios de usuarios irán determinando si las expectativas se
cubren con las herramientas de descubrimiento o si se detectan aspectos
que habrá que mejorar, que haga necesario quizá pensar en una evolución
de las mismas o en alguna nueva herramienta en el contexto de la biblio-
teca. Hasta el momento lo que sí está demostrado (Popp, 2012) es que-
cuando una biblioteca lanza su herramienta de descubrimiento para que sus
usuarios accedan a su colección mediante este mecanismo, el cómputo de
los acceso a los recursos electrónicos se incrementa en torno al doble de
descargas previo.

4. Herramientas de búsqueda en internet

Hace dos décadas internet, la red global de redes de ordenadores, irrum-


pe en la vida cotidiana de los ciudadanos del mundo desarrollado descu-
briéndoles un mundo sorprendente y hasta entonces insospechado de posi-
bilidades para comunicarse con otros, para difundir información y también
para buscarla y encontrarla.
Buscamos en internet por razones y motivos diferentes. Por ejemplo,
si queremos saber algo sobre un término que escuchamos o leemos por
primera vez o sobre un concepto determinado; cuando queremos más infor-
mación sobre una noticia; cada vez que consultamos bases de datos de
trabajos científicos; para buscar la mejor ruta de desplazamiento por una
ciudad o por un país; porque queremos localizar a personas concretas o que
tengan determinadas características; durante la búsqueda de fotografías de
cierto lugar o acontecimiento; como fuente para escuchar una determina-
da música o ver un vídeo de un suceso determinado o que ilustre cierto

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 251


proceso; cuando queremos comparar precios de venta de un determinado
producto o servicio; cada vez más, cuando deseamos hacer una transacción
bancaria o plantear una queja a la administración; y así podríamos seguir
indefinidamente.
En este epígrafe nos vamos a centrar únicamente en las posibilidades
que intemet ofrece para buscar y encontrar información. Dejaremos, por
tanto a un lado su función de plataforma de publicación y de comunicación
de alcance mundial. En este apartado nos centraremos en analizar los tipos
de herramientas básicas para la búsqueda en intemet, sin entrar apenas,
en qué tipo de información concreta proporcionan. Por poner un ejemplo,
si hablamos de motores de búsqueda, no distinguiremos si nos permiten
buscar páginas web, artículos científicos o enciclopédicos, libros, noti-
cias, fotografías, vídeos, objetos de subasta, ciudades o lugares del mundo,
empresas, personas, o cualquier otra entidad susceptible de ser descrita en
una base de datos. En líneas generales, las herramientas concretas que tra-
taremos son aquellas generalistas, que no hacen distinciones en el tipo de
información que permiten localizar, salvo aquellas más básicas derivadas
de la naturaleza del medio: texto, incluyendo páginas web y distinguiendo
en ellas las noticias, imagen o vídeo y audio.
Para una mejor comprensión del entorno en el que nos movemos, se
harán unas breves consideraciones sobre intemet, la web y las herramientas
de búsqueda aparecidas en su seno, se analizarán algunas características y
peculiaridades de los tipos de medios más habituales, texto, imagen estáti-
ca y vídeo y audio, se detallarán los tipos de herramientas básicas para la
búsqueda en intemet y se verán en especial detalle los motores de búsqueda
como el tipo de herramienta más utilizado. Finalizaremos haciendo algu-
nas consideraciones sobre lo que podríamos llamar la «intemet invisible»,
justamente aquella información disponible en intemet pero a la que los
motores de búsqueda no tienen acceso.

4.1 . Origen y evolución de internet de la web


y de las herramientas de búsqueda
Sin pretender hacer una historia de intemet ni una introducción a las
tecnologías básicas que la hacen posible, sí que merece la pena mencionar
algunas cuestiones que serán de interés para la mejor comprensión de este
apartado.

252 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


1

1
Por una parte, están los ficheros de texto en formatos distintos de HTML:
por ejemplo, documentos de Word, de Excel, de Powerpoint, ficheros PDF,
ficheros de texto plano (con extensiones como .txt, .csv, etc.). Muchos de
esos formatos son también recuperables en buena parte por los motores de
búsqueda genéricos más conocidos, que tratamos en otro epígrafe de este
capítulo.
También mencionaremos aquí, entre otros tipos de recursos que pueden
ser buscados:
• Programas y aplicaciones informáticas de todo tipo, ya sean comer-
ciales, gratuitas, de licencia libre, etc., entre los que indicamos a
modo de ejemplo Sourceforge.
• Contenidos (de forma parcial o total) de libros publicados original-
mente en forma impresa, así como a artículos de revistas científicas y
académicas: en algunos casos, solo a los títulos y resúmenes (tenien-
do que pagar, o bien, acceder a una institución que sí pague por el
texto completo de los mismos).
• Buena parte de los motores de búsqueda genéricos, así como diver-
sos recursos especializados, ofrecen mapas y planos de casi todo el
mundo.
• Existen también recursos que ofrecen la búsqueda de los mensajes
publicados en listas de distribución (como las existentes en la red
académica española Rediris ), o en los perfiles públicos de redes
sociales que tienen su contenido accesible sin restricciones, como
Twitter, etc.

4.3. Tipología de las herramientas


Las herramientas de búsqueda en Internet pueden clasificarse atendien-
do a diferentes criterios: la cobertura (generalistas o especializadas), la for-
ma de creación de su base de datos (totalmente automatizada, o bien, con
la participación de personas en la introducción de los datos) o la forma de
organización de los recursos, entre otros.
De la combinación de estos criterios, obtenemos la clasificación más
habitual sobre herramientas de búsqueda (o buscadores, en sentido amplio),
ya sea sobre contenidos difundidos originalmente vía web (la inmensa

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 261


mayoría) o por medio de otra aplicación. Esta clasificación incluye los
siguientes tipos de buscadores:

• Directorios o índices.
• Motores de búsqueda (en inglés, search engines).
• Metabuscadores.
• Multibuscadores.
• Otras herramientas: agentes inteligentes.

Haremos especial hincapié en los dos primeros, directorios y motores


de búsqueda, especificando las principales diferencias entre ambos.

4.3.1. Directorios

Se trata de recopilaciones de enlaces a sitios web, que son agrupados en


categorías organizadas jerárquicamente en una estructura arbórea de temas
cada vez más específicos; la selección y la clasificación es realizada de
forma manual por personas. Generalmente se parte de un número maneja-
ble de categorías básicas (14 en Yahoo!) situadas en la «raíz» del árbol; de
ellas, en un segundo nivel, arrancan las diversas subcategorías, y el proceso
continúa en niveles cada vez mayores de profundidad o detalle hasta tener
decenas de miles de categorías. Con frecuencia, en el árbol de categorías
hay referencias cruzadas, esto es, categorías que pueden aparecer como
subcategoría de varias otras, además de aquella en la que se encuentra
efectivamente ubicada como tal. Navegando por el árbol de categorías del
directorio de Yahoo!, las subcategorías cuyo nombre finaliza con«@» no
están ubicadas en la categoría que estamos examinando, sino en otra, pero
se muestran en aquella por su proximidad semántica. Otros directorios han
adoptado también tanto las referencias cruzadas como el indicador utiliza-
do para señalarlas.
De cada sitio se recoge, además del URL, una brevísima descripción de
su contenido. Cada directorio establece su propio sistema de clasificación,
que puede variar muy sensiblemente de uno a otro.
La forma básica de uso de un directorio es la navegación por la estructu-
ra jerárquica de categorías, yendo desde las más generales hasta aquella que

262 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


previsiblemente contiene los recursos buscados. Pero, además, suelen incor-
porar un formulario en el que pueden introducirse términos de búsqueda que
se recuperarán tanto en las descripciones de los sitios como en los propios
nombres de las categorías, dando como resultado un listado en el que apare-
cen sitios web y categorías que contienen tales términos de búsqueda.

Su ventaja principal es que, si están bien hechos, contienen recursos


seleccionados y organizados, y suelen ser bastante útiles si no se tiene una
idea precisa sobre lo que se quiere encontrar. Su principal inconveniente es
que, debido a su elaboración manual, es difícil que se encuentren allí todos
los sitios relacionados con un tema en concreto: el nivel de crecimiento de
los contenidos en la web es siempre más rápido que la capacidad de actua-
lización de un directorio, por grande que sea.

Entre los directorios, los hay generalistas, como el ya señalado de


Yahoo!, que pretenden recoger todo tipo disponibles en la web, pero los
hay también especializados en un tema concreto, más o menos amplio, a
partir del cual se crean categorías y subcategorías. Estos directorios suelen
estar más actualizados que los directorios generalistas, y si la búsqueda
está suficientemente acotada, pueden resultar muy útiles. La especializa-
ción puede darse también por el tipo de documento recogido en la colec-
ción (por ejemplo, revistas científicas), por el alcance geográfico de los
temas abordados (países, regiones, etc.), por la lengua de los recursos, o por
muchos otros criterios o combinaciones.

Durante años, los directorios fueron las herramientas más utilizadas


para buscar información en intemet, y Yahoo! era el servicio de búsqueda
más utilizado. Los motores de búsqueda existían pero las listas de resulta-
dos reflejaban poco la relevancia potencial de las páginas para el usuario; el
listado incluía páginas web sueltas que simplemente contenían los términos
de búsqueda expresados y en ocasiones era preciso mirar varias páginas
de resultados hasta encontrar una que fuera juzgada como realmente rele-
vante. Sin embargo, la aparición de Google revolucionó el panorama por
la forma en que ordenaba los resultados de una búsqueda, que trataremos
después; el usuario en general quedaba satisfecho examinado solo unos
pocos resultados. Ello determinó un vuelco en las preferencias de los usua-
rios con respecto a las herramientas de búsqueda y Google se convirtió en
la preferida. Incluso Yahoo! tuvo que incorporar un motor de búsqueda con
funcionalidades más o menos comparables a las de Google para evitar la
deserción de sus usuarios habituales. Los directorios generalistas, difíci-

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 263


les y caros de mantener, fueron perdiendo terreno frente a los motores de
búsqueda. Muchos dejaron de actualizarse, o al menos de actualizar las
versiones locales para países o lenguas concretas; por ejemplo la versión
del directorio de Yahoo! para España, desapareció en 2009 después de estar
varios años sin actualizar.
Sin embargo, para determinadas necesidades de información los direc-
torios siguen siendo muy útiles. Especialmente cuando lo que queremos en
conocer es una relación de sitios web dedicados a un determinado tema o
actividad. En este caso un buen directorio no tiene rival en los motores de
búsqueda.
Como directorios generalistas e internacionales pueden citarse los
siguientes:

• Yahoo!: su URL como portal de servicios es http://www.yahoo.com/,


y el del motor de búsqueda http://search.yahoo.com/. Desde éste pue-
de buscarse también en el directorio, sobre los nombres de las cate-
gorías y las descripciones de sitios web tal como se ha dicho, selec-
cionando en la pestaña «More» la opción «Directory», que nos lleva
a http://dir.search.yahoo.com/.
• The WWW Virtual Library: el directorio de recursos web más anti-
guo, fue impulsado en sus orígenes por el propio Tim Berners-Lee,
«inventor» de la web. Hoy es mantenido por voluntarios de todo el
mundo.
• Open Directory Project: adquirido por Netscape, figura como asocia-
do al portal norteamericano AOL (America On Line), también adqui-
rido por Netscape. Inserto en el movimiento «open ... », es mantenido
por una comunidad de casi cien mil voluntarios de todo el mundo.
De los más interesantes, cuenta con versiones para muchos idiomas,
totalizando más de un millón de categorías, y recoge más de cinco
millones de sitios web.
• Internet Public Library: creado y mantenido por la University of
Michigan School of Information desde 1995 a 2009, hoy lo gestiona
el Drexel University College of Information Science & Technology,
y se lo conoce como IPL2, por el nombre del consorcio creado tras
la fusión de IPL con el LII, Librarians' Internet Index. Está espe-
cialmente orientado a la enseñanza/aprendizaje. Miles de voluntarios,
estudiantes y profesionales de la información, colaboran en su man-

264 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


tenimiento. Siguiendo el ancla «Resources by Subject», llegamos a la
raíz del directorio temático, sólo en inglés.
• Excite: también comercial, como Yahoo! y los que siguen, tuvo una
versión para España que se cerró en 2009.
• EINet Galaxy: propiedad de eiNET.
• About.com: de IAC/InterActiveCorp. Se accede a la raíz del árbol de
jerarquías siguiendo el ancla «Browse categories».

Además de estos directorios generalistas, pueden citarse otros de espe-


cial interés académico, como BUBL Link, creado por la Strathclyde Uni-
versity Library, que usa para organizar sus recursos el Sistema de Clasi- ".
ficación Dewey, o Intute, creado por el consorcio del mismo nombre de t~
siete universidades inglesas, entre ellas la de Oxford, que contiene recursos
para la educación y la investigación. N o obstante, estos últimos directorios
dejaron de actualizarse, si bien el ya citado IPL2 ha incorporado parte de
los recursos seleccionados por lntute.
También podrían citarse directorios organizado por la cobertura geográ-
fica de los recursos seleccionados, como The Virtual Tourist, nacido en la
Universidad de Buffalo y con navegación basada tradicionalmente en mapas
sensibles, una vez comercializado se orientó fundamentalmente al turismo.
Y para ilustrar directorios especializado en un tipo documental concre-
to, puede servir DOAJ (Directory of Open Access Journals), que recoge
más de 8.000 revistas científicas y académicas gratuitas, a texto completo,
y de calidad, sobre todos los temas y en muchas lenguas.

4.3.2. Motores de búsqueda


Exploran la red por medio de un robot y construyen índices con las
palabras significativas de cada página web, incluyendo documentos HTML
o en otros formatos, como PDF, RTF, MS-Word, etc., o incluso recursos
de otros servicios, como ficheros de texto disponibles en sevidores de
FTP, generalmente siempre a texto completo, que el usuario puede buscar
mediante un formulario de HTML.
Los motores de búsqueda (o, abreviadamente, motores), son el tipo de
herramienta más usado para la búsqueda de información en intemet. En

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 265


síntesis, las principales diferencias entre motores y directorios se presentan
en la tabla siguiente.

Tabla 6. Diferencias básicas entre directorios y motores de búsqueda.

Cómo se crea Editores profesionales o Robot que explora automática


la base de datos voluntarios que localizan los y cíclicamente la web
recursos, o autores de sitios siguiendo los enlaces
web que solicitan su inclusión. presentes en las páginas.
Cómo se Por el editor o por el Por el robot, de forma
actualiza la propietario del recurso, de automática, cuando la página
base de datos forma manual. vuelve a explorarse.
Qué unidad de Información básica sobre sitios Páginas web, todas las
información web, de los que se da una páginas de todos los
contiene la descripción corta, y que son servidores web explorados.
base de datos clasificados asignándoles una
categoría concreta en un árbol
de categorías de varios niveles
de profundidad, totalizando
miles de categorías.
Cómo se indiza Se indiza la descripción del Se indiza el texto
la base de datos recurso y el nombre de la (generalmente todo) de cada
categoría en que se incluye, página encontrada,
aunque la finalidad principal conservando para cada
de la herramienta es la palabra una indicación sobre
clasificación del recurso en su ubicación en la página.
una categoría concreta del
árbol de categorías.
Procedimiento Por navegación, seleccionando Por palabras o frases,
de búsqueda menús sucesivos a través del mediante formulario, sobre el
árbol de categorías del texto, generalmente
directorio (generalmente se completo, de las páginas
ofrece también la opción de (generalmente se dan
búsqueda por palabras o frases opciones de búsqueda
mediante formulario, sobre los diversas, como operadores
nombres de las categorías y las booleanos, limitación a
descripciones de los recursos). ubicaciones concretas de los
términos, inclusión o
exclusión de sinónimos, etc.).

266 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


Resultados de Listado de sitios web que se Listado paginado de páginas
la búsqueda han clasificado dentro de la web que cumplen los
categoría seleccionada, requisitos de la búsqueda,
mostrando generalmente el mostrando de cada una
título que se le ha dado, la generalmente su título, su
descripción corta y su URL (si URL, y algunas partes de su
se ha buscado mediante contenido donde figuran en
formulario, se incluyen las su contexto algunas palabras
categorías que en su nombre buscadas (generalmente
contienen los términos de desde estas páginas de
búsqueda y los sitios web que resultados se da la opción al
en su título o descripción usuario de establecer filtros
contienen dichos términos). adicionales: por fecha,
idioma, región, etc.).
Para qué se Conocer sitios web de calidad Encontrar información sobre
busca e interés sobre un determinado cualquier término o
tema. expresión, aunque no se tenga
ningún conocimiento previo
i
sobre el mismo.
Ejemplo Ej.: Yahoo!: http://dir.yahoo. Ej.: Google. 1
com/ [No confundir con su 1
motor de búsqueda ni con el
portal].

En síntesis, los motores de búsqueda se basan en cuatro componentes


fundamentales:

• La forma en la que recopilan los recursos de la web y, con la infor-


mación que obtienen de ellos, crean su base de datos e indizan esa
información.

• La interfaz de búsqueda que le ofrecen al usuario para consultar la


base de datos.

• La forma en la que presentan sus resultados y permiten filtrar de entre


los mismos (a veces, para facilitar una posible nueva búsqueda).

• Y las opciones de personalización de los resultados, ya sea voluntari~


por el usuario, o bien, hecha de forma invisible por el motor de bús-
queda.

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 267


4.3.2.1 . Recopilación de recursos e indización de la base
de datos

El primer componente de un motor de búsqueda es el llamado robot


(también conocido como bot, spider, araña, crawler, reptador... ). Un robot
es un programa que, de forma automática, accede a una página web, reco-
pila la información y la pasa a un sistema de indización, y además, com-
prueba cuáles son los enlaces dentro de esa página. El robot accede a con-
tinuación a cada una de las páginas a las que apuntan esos enlaces y repite
el mismo proceso, página a página y enlace a enlace. No obstante, no todos
los robots acceden a todas las páginas: cada robot tiene definido un nivel
máximo de profundidad, o número máximo de páginas distintas a las que
enlaza (desde una hasta otra): se entiende que, cuanto mayor sea el nivel de
profundidad de una página (el número de páginas por las que hay que pasar
para acceder a ésta última), menor será su importancia.
A continuación, con todas y cada una de las páginas recolectadas, la
información es tratada por un sistema de indización automática, que indiza
todos esos documentos. Por una parte, el sistema emplea un proceso repe-
titivo, o algoritmo, que selecciona distintas partes del texto y (en el caso
de la páginas HTML) de la estructura de cada página, y que añade además
algunos otros parámetros: por ejemplo, el número de enlaces que recibe esa
página de otras, si es un texto, o algunos aspectos técnicos de una imagen;
etc.
Con toda esa información, el buscador crea una base de datos, en la
que almacena la información extraída sobre cada documento almacenado,
usando un campo para cada tipo de información; solo en algunos casos,
se incluye el contenido completo previamente obtenido. Esa información,
además, se organiza mediante índices o ficheros de palabras incluídos en
cada uno de los campos.
Los tipos de campos de esa base de datos son uno de los secretos mejor
guardados de los buscadores, ya que son uno de los aspectos que influyen
directamente en las opciones de búsqueda de los usuarios del buscador.
Cada cierto tiempo, el proceso robot-sistema de indización se repite con
aquellas páginas originales de las que se detecta una nueva versión en la
web (dependiendo de la frecuencia con la que se actualicen, el proceso será
más frecuente o no), sustituyendo en la base de datos los datos antiguos
con los nuevos. Un robot solo indiza las páginas a las que el propietario o

268 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


el webmaster (responsable del sitio web) de un sitio así se lo permite: hay
diversos mecanismos automáticos para indicarle estos permisos al robot.

4.3.2.2. Interfaces y lenguajes de búsqueda


Una vez obtenidos e indizados los documentos de la web, el motor de
búsqueda ofrece a sus usuarios un interfaz o formulario de búsqueda, que
permite la interacción entre el usuario y el sistema para realizar la búsqueda
y mostrar los resultados. En general se usan formularios HTML para pedir
los datos de la búsqueda al usuario y páginas web dinámicas (generadas ex
profeso para el usuario) para mostrar los resultados.
En la mayoría de los motores, el sistema de interrogación no solo per-
mite usar palabras, sino también combinarlas mediante un sistema de inte-
rrogación, o conjunto de opciones de búsqueda que incluye el uso adicional
de una serie de términos o caracteres especiales, llamados operadores, para
definir cómo es esa combinación: por ejemplo, indicando que los docu-
mentos buscados han de contener todas las palabras citadas y, además, en
un orden determinado, etc.
La interfaz de búsqueda y el lenguaje de consulta varían entre los distin-
tos motores de búsqueda, aunque el lenguaje suele estar basado, en buena
parte, en lógica booleana. Además de la consulta sobre contenidos inclui-
dos en el texto, muchos buscadores ofrecen también la posibilidad de reali-
zar una búsqueda por otros elementos relacionados con el documento, tales
como: la fecha de publicación (que puede ser un rango: desde una fecha a
otra), el tipo de documento, el dominio web al que pertenecían los docu-
mentos buscados, el idioma (si es posible de determinar), etc.
Dependiendo del motor, se le ofrecen al usuario opciones de búsque-
da sencilla (una casilla en la que el usuario escribe la palabra o palabras
de búsqueda), o bien, una serie de opciones de búsqueda avanzada. Estas
opciones son explicadas con mayor detalle en el epígrafe 2 de este capítulo.

4.3.2.3. Recuperación y presentación de resultados y filtros


Una vez realizada la búsqueda, el motor aplica un nuevo algoritmo de
recuperación (es decir, otra serie automatizada de procesos) para buscar en
la base de datos los documentos que pueden responder a esa búsqueda, y
el motor devuelve una lista con los resultados encontrados, generalmente

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 269


en un orden que intenta reflejar la relevancia de los documentos para el
usuario.
Tanto el algoritmo de recuperación como los criterios para la ordena-
ción de los resultados por relevancia son diferentes en cada motor, lo que
determina que los primeros resultados obtenidos para una misma estrate-
gia de búsqueda sean distintos de un motor a otro. También son secretos,
para proteger sus algoritmos frente a la competencia, ya que un motor será
valorado mejor por un usuario si generalmente encuentra al comienzo de la
lista los resultados potencialmente más útiles; pero también para evitar que
se compongan las páginas de manera que alcancen un alto grado de rele-
vancia y se sitúen entre los primeros resultados. Por ejemplo, una empresa
dedicada a la venta de calzado estará muy interesada en que la búsqueda de
los términos «zapato», «zapaterías» o «calzado» sitúen al sitio web de la
empresa entre los primeros resultados de la búsqueda: es lo que se conoce
como «posicionamiento web».
Asimismo, el algoritmo de recuperación y los criterios de ordenación
de resultados son variables con el tiempo, como resultado de un proceso
continuo de mejora del rendimiento del motor. En los primeros años, esta-
ban basados, en general, en dos criterios básicos: posición del término, en
el título, los primeros párrafos de texto, etc.; y frecuencia de aparición en
el documento. Actualmente se basan en otros criterios adicionales, que dan
mayor peso a determinadas páginas, esto es, les ofrecen una mayor posibi-
lidad de que aparezcan en las primeras posiciones de los resultados. Entre
estos criterios podrían señalarse:

• Número de enlaces que tienen como destino una página dada (Excite,
Google ... ), y número de enlaces que tiene como destino las páginas
que remiten a la página dada (Google). Generalmente este criterio
suele conocerse como «popularidad». Google lo usa como base para
su algoritmo PageRank, pero hoy usa además otros algoritmos.
• Existencia de una reseña de la página en un directorio.
• Aparición del término en elementos meta de HTML o algún otro
mecanismo de metadatos.
• Activación de un enlace de la lista de resultados por parte de otros
usuarios que han hecho antes la misma búsqueda. Por ejemplo, si
otros usuarios que han hecho previamente la misma búsqueda han
seleccionado en su mayoría el tercer resultado, el motor de búsqueda

270 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


podrá considerar que esa página es más relevante para esa búsqueda
que las que ocupan las posiciones previas.
• Sitio web de procedencia de la página. Por ejemplo, un término que
esté recogido corno una entrada en la Wikipedia, probablemente esta-
rá en los primeros lugares. Estos dos últimos factores permiten exten-
der el concepto de «popularidad» visto a propósito del número de
enlaces que llegan a una página.

4.3.2.4. Opciones de personalización


Los resultados ofrecidos por los motores de búsqueda pueden ser dis-
tintos de un usuario a otro. En primer lugar, porque así lo haya decidido el
usuario: los distintos motores ofrecen opciones para que cada usuario con-
figure qué resultados quiere recibir antes, o no quiere recibir (por ejemplo,
páginas que no sean aptas para menores, o páginas en un idioma concreto
antes que en otro, etc.).
Pero además, en aquellos sistemas en los que el usuario se ha identifi-
cado antes de hacer la búsqueda: según sus preferencias o incluso según el
tipo de recurso al que realmente accede desde las páginas de resultados, el
sistema puede personalizar los resultados que le ofrece, y a veces, sin que el
usuario sea consciente de ello: ordenando los resultados de distinta manera,
añadiendo información complementaria dependiendo del lugar donde esté
conectado, etc. De alguna forma, eso hace que la percepción de lo que exis-
te en la web pueda ser muy diferente para cada usuario concreto.

4.3.2.5. Algunos motores de búsqueda generalistas

Entre los principales motores de búsqueda generalista, se incluyen:

• Google: de Google lnc.; en España redirecciona a Google España;


para acceder a la versión internacional se puede seguir el ancla «Goo-
gle.com» en la parte inferior de la página.
• Yahoo! Search: ya citado en relación con los directorios.
• Bing: de Microsoft lnc.; antes Live Search, Windows Live Search y
MSN Search.
• Ask: de Ask.corn.

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 271


• Exalead: de Dassault Systemes; informa del tamaño de la BD: más de
16 mil millones de páginas.
• Lycos: de Lycos Inc.; uno de los primeros en la web, hoy da también
resultados a HotBot.
• Yandex: de la compañía rusa del mismo nombre.

4.3.3. Metabuscadores
Un metabuscador es una herramienta que, con una única interfaz y
estrategia de búsquedas, permite lanzar una misma búsqueda sobre varios
motores distintos. El metabuscador no trabaja sobre una base de datos pro-
pia, sino que realiza, simultáneamente, varias búsquedas en diferentes bus-
cadores, utilizando las bases de datos creadas por cad.a uno de ellos, y luego
combina todos los resultados obtenidos, en una lista también única.
Son útiles cuando un buscador concreto no encuentra nada sobre un
tema determinado. Se podría pensar que constituyen una solución óptima,
pero el metabuscador tiene su propio lenguaje de búsqueda que luego ha de
traducir a los lenguajes específicos de cada motor de búsqueda. Por ello no
dispone de las opciones de búsqueda particulares de cada motor.
Un metabuscador suele funcionar siguiendo estos pasos: primero lanza
la búsqueda formulada por el usuario a sus motores o directorios asociados
componiendo una lista de resultados, que representan, en teoría, las mejores
respuestas a la pregunta. Posteriormente pueden llevar a cabo otras tareas,
como asignar a los resultados un valor de relevancia y ordenar la lista según
esos valores, formatear los resultados de forma consistente, verificar la acce-
sibilidad del recurso o eliminar enlaces que ya no son válidos. La lista final
suele indicar el buscador que ha generado la respuesta y permitir agrupar los
resultados por ese criterio. Como ejemplos, puedan citarse los siguientes:
• Metacrawler: de Indospace Inc .. Busca sobre Google, Yahoo!, Yan-
dex. Permite usar una búsqueda simple (introduciendo solo los tér-
minos de búsqueda y el tipo de recursos: página web, imagen, audio,
vídeo) o avanzada,
• ZapMeta: indica que busca sobre «Yahoo, Microsoft, Gigablast, Alta-
vista, Entireweb, etc ... »; al mostrar los resultados no indica su proce-
dencia; mantiene un etiquetado social.

272 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


• Highway61: también mantiene un directorio, Internet Open Highway
Project.
• Dogpile: busca en Google, Yahoo!, Yandex.
• Webcrawler: busca en Google, Yahoo!; no indica la procedencia de
los resultados individuales.
• Search.com: busca en Google y Bing.

4.3.4. Multibuscadores
Un multibuscador es, en realidad, una página única con una lista de
casillas de búsqueda, cada una de las cuales está conectada a un buscador
distinto. El usuario, por lo tanto, puede elegir, desde una única página, qué
búsqueda hace y en qué buscador la realiza. Solo es posible realizar una
búsqueda en un buscador a la vez.
Los buscadores a los que da acceso pueden ser tanto generalistas como
especializados (en blogs, diccionarios, vídeos, imágenes, etc.), tanto globa-
les como de organizaciones concretas. Sirvan como ejemplo los siguientes:
• Langenberg: dispone de formularios diversos, uno para cada servicio
de búsqueda.
• LightSwitch: tiene un único formulario con un menú desplegable de
donde seleccionar el motor de búsqueda.
• 1-Page Multisearch: en Bjorgul o en AlfaSeek. Este recurso incluye
tanto un multibuscador como un metabuscador.

4.4. Otras herramientas


Se ha ideado herramientas de búsqueda muy diversas para permitir la
búsqueda de recursos disponibles en internet. Entre ellas, cabe citar los
agentes personales de búsqueda, también conocidos como «agentes inteli-
gentes». Son aplicaciones instalables en un ordenador, que a partir de unos
parámetros de partida dados por el usuario, junto con sus preferencias y
hábitos en la búsqueda y recuperación de páginas, pueden encontrar por sí
solos páginas que pueden interesar a sus usuarios y mostrárselas directa-
mente, de modo más o menos periódico, sin que el usuario tenga que reali-

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 273

----------
zar expresamente las búsquedas. Como ejemplo Copemic Agent Personal,
una aplicación gratuita de Copernic Inc.

4.5. La internet invisible o la web profunda

Los motores de búsqueda no indizan todo lo que está accesible a través


de la web. Según muchos autores, indizan menos de un 1%, y algunos cal-
culan que sobre un 0,2% (Bergman,2001) Los recursos informativos que
constituyen esa pequeña parte, que podríamos llamar la «internet visible»
(o, con más precisión, la «web visible»), tienen como características comu-
nes las siguientes:
• Son de acceso libre (sus autores permiten su difusión en la web) y
gratuito (no se requiere un pago por acceder a ellos).
• N o requieren de un proceso de registro previo (aunque sea gratuito)
para acceder a ellos.
• Es información relativamente estable (no cambia el contenido del
recurso en el transcurso de unos minutos, unas horas o unos pocos
días), y tienen un URL propio (suele hacerse referencia a ellas como
«páginas web estáticas»).
• Tienen de forma nativa un formato extendido, especialmente HTML
(aunque pueden indizarse también recursos en otros formatos como
PDF, RTF, MS-Word, MS-Excel, MS-PorwerPoint, etc.).
• Puede accederse a ellos desde enlaces situados en otros recursos
(especialmente páginas HTML, aunque también recursos en otros
formatos como PDF, RTF o MS-Word).
Así, en lo que podríamos llamar la «internet invisible», o la «internet
profunda» (hay quienes consideran dos conceptos diferentes; en cualquier
caso sería más preciso hablar de «web invisible» o «web profunda»), esta-
rían todos aquellos recursos inaccesibles para los motores de búsqueda, y
especialmente:
• Los registros concretos de bases de datos de cualquier tipo, a los que
sin embargo puede accederse desde una interfaz web.
• Documentos en formatos menos extendidos o comunes que los cita-
dos antes.

274 TÉCNICAS DE BÚSQUEDA Y USO DE LA INFORMACIÓN


• Páginas web (o sitios web completos) que, por expreso deseo, no son
indizadas por los motores de búsqueda (mediante indicaciones nor-
malizadas incluidas en ficheros llamados «robots.txt», que los robots
leen antes de pasar el URL al subsistema de indización).
• Páginas web de sitios que exigen el registro (nombre de usuario y
contraseña) para acceder a todo o parte del sitio, aun cuando dicho
registro sea gratuito.
• Páginas situadas en servidores web abiertos pero que no tienen acce-
so desde ningún enlace exterior y por tanto no son visitadas por los
robots e indizadas («islas»).

Evidentemente, hay otros recursos en internet, que podríamos llamar


la «internet privada», a los que solo tienen acceso usuarios concretos en
tanto que son miembros de una determinada organización en razón de su
actividad profesional, por el aval de otros miembros o mediante el pago de
cuotas. Esta parte de internet, que incluye intranets accesibles desde inter-
net en ocasiones conocidas como extranets, evidentemente, queda fuera del
alcance de la anterior clasificación.
Como se ha señalado, muchas bases de datos pueden ser consultadas
desde la web, y por tanto, sus registros están accesibles aunque no apa-
rezcan entre los resultados que nos proporciona un motor de búsqueda.
La consulta de la base de datos se realiza desde una interfaz web, esto es,
una página web (HTML) estática que incluye formularios cuyo contenido
se le trasfiere a una pasarela (gateway) que los convierte en instrucciones
para el gestor de bases de datos que lanzará la búsqueda. Los resultados
de la búsqueda, devueltos por el gestor de bases de datos a la pasarela, son
convertidos a HTML y mostrados al usuario como una página web (en
concreto, como una página web dinámica, esto es, generada ad hoc como
resultado de una búsqueda concreta, igual que sucede con los resultados de
una búsqueda en un motor de búsqueda).
Aunque se han hecho intentos para generar páginas web estáticas a
partir del contenido de los registros de bases de datos, para facilitar así
el que ciertos motores de búsqueda pudieran incluir tales registros entre
sus resultados, lo cierto es que es más práctico conocer de la existencia
de tales bases de datos, y una vez localizada la más conveniente, hacer
la búsqueda mediante la interfaz web, que seguramente nos ofrecerá
opciones de búsqueda más potentes y adecuadas para la base de datos

CAPÍTULO 3. RECUPERACIÓN DE INFORMACIÓN EN ENTORNOS ELECTRÓNICOS 275

--~------______)~----------------------

También podría gustarte