Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de la Informacibn
en Internet
Jesk Tramullas Saz
Maria Dolores Olvera Lobo
A Miriam, para quien cada respuesta es una nueva pregunta.
A mis padres.
AUTORES
Guia d e lectura .._.. ,... ,_. .___. ._. .___. .__. ._. xv
Introducckh XVII
0 RA-MA iNDICE XI
BIBLIOGRAFiA
El texto se acompafia de una bibliograffa que rehne 10s trabajos citados a lo large
de1 mismo, asi coma un conjunto de lecturas seleccionadas sobre 10s diferentes temas
y aspectos cubiertos en este libro.
INTRODUCCIdN
El lector encontrari en este libro una exposici6n de1 corpus cientifico que rige la
recuperacidn de la informacibn, asi coma sus plasmaci6n prktica en herramientas
inform&ticas especialmente pensadas para la World Wide Web. Los motores de
btisqueda son aplicaciones especializadas de 10s sistemas informaticos de tratamiento
y recuperacibn de informacidn textual. Los directories son un intent0 de crear
clasificaciones jekquicas, mundiales, de 10s diversos campos de la actividad humana.
Los agentes inteligentes desempefian un papel similar al de1 especialista en
informaci6n y documentacZn, que realiza bhsquedas, localiza y obtiene documentos
de especial inter& para el usuario. La recuperacibn de informacibn en Internet hay que
abordarla desde una perspectiva que ponga el knfasis en el tratamiento informative y
documental de las paginas web. Los contenidos de Internet no son patrimonio de
informAticos ni de disefiadores gr%icos: son campo de trabajo para escritores, artistas.
docentes, estudiantes, periodistas y especialistas en informaci6n y documentaci6n.
CAPiTULO 1
LA INFORMACIdN EN INTERNET:
ESTRUCTURA Y CONTENIDO
potential que se intaia en la misma, hizo que en poco tiempo se extendiese a nivel
mundial, borrando de1 mapa a otros s i s t e m a s d e organizacibn y acceso a la
informaci@ coma por ejemplo Gopher. Al Cxito de1 HTML se uni6 inmediatamente
el temprano desarrollo de1 NCSA Mosaic, visualizador avanzado desarrollado por
investigadores de1 National Center for Supercomputing Applications, en la University
of Illinios at Urbana Champaign, varies de 10s wales acabaron fundando Netscape un
tiempo mh tarde. Y de ahi a la actaalidad ya conoce el acelerado desarrollo de la web
y la cruel guerra entre Netscape y Microsoft (la cual no creia en Internet, lleg6 tarde y
mal, y, coma siempre suele hater, supli6 so inferioridad tecnolbgica con so abmmador
poder de marketing).
CalidadlUtiUdad
1 CantidadNolumen
saber (t&k o prktico) que le es de utilidad en una situaci6n dada. Mientras que es
dificil establecer una correspondencia entre conocimiento y soporte de ese
conocimiento, ya que se suele aceptar que es el ser humane; en cambio es
generalmente aceptado que 10s dates y la informacibn suelen encontrarse en on
soporte material. La uni6n entre soporte y contenido establece la existencia real de on
documento. Numerosos investigadores han analizado, desde finales de1 siglo XIX, la
teorfa y din&mica de 10s documentos y de la informacibn contenida en 10s mismos, de
tal mode que la Documentaci6n se ha convertido, por si misma, en una disciplina
cientifica. En la actualidad, una de las lineas de investigacibn m&s provechosas es
precisamente el adocumento virtual*>, en otras palabras, el document0 electr6nico y
sus problemas. Y es que el lector debe saber que, en realidad, la aproximacibn m&s
adecuada en on entomo coma la web no es la informitica, ni la de1 diseiio. el
concept0 clave es tratar la web coma on espacio informative cuyo componente
fundamental son 10s documentos electr6nicos.
Las paginas web corresponden con 10s nodes, coma se ha sefialado. Entonces, hay
que plantearse cuA1 es el criteria de contenido informative que siguen 10s nodes. En el
web no existe un criteria iinico ni general que determine si una informaci6n se
organiza en tome a un nodo o a varies fuertemente relacionados. Esta decisi6n
depende de numerosos factores, especialmente de la orientacibn de1 creador de1
documento.’ Para explicarlo, tomemos en consideraci6n un reportaje o articulo
traditional de revista. Para describirlo y organizarlo, se le da un titulo y unos
subtitulos, y se dispone el contenido en una secuencia seguida de phginas. Si pasamos
0 RA~MA CAPiTULO I: LA lNFORMACI&‘l EN INTERNET: ESTRUCTURA Y CONTENIDO 7
este artfculo a la web, se presentan al usuario dos primeras opciones: crearlo coma una
tinica pagina w e b d e gran tamaiio ( u n nodo), o crear varias paginas w e b ,
correspondientes a las diferentes partes de1 articulo, cada una con so titulo particular,
para enlazarlas entre si seg6n el criteria que se considere pertinente (varies nodes).
Las implicaciones son muy diferentes, en un case y en otro, para la recuperaci6n de
informaci6n, tema que nos ocupa. Desde una perspectiva documental, podtiamos decir
que la consideracidn de si es un document0 complete, o si cada una de las partes es un
document0 individualizado, dependeria de1 context0 de utilizaci6n por parte de1
usuario. Si lo vemos desde la perspectiva tecnol6gica de la actual generacidn de
herramientas para recuperacidn de informacidn textual en Internet, cada una de las
partes individuales de1 articulo en cuesti6n ser& tratada coma si fuese un document0
independiente, cuesti6n que s&i tratada en 10s prdximos capitulos.
informacidn electrbnic
Figura 1.4. La pagina web coma documento hipertextual: nodo, anclaje y enlace
Las prestaciones que ofrece la generaci6n actual de navegadores a 10s usuarios son
limitadas. En primer lugar, cumplen la misi6n de desarrollar la presentacidn visual de
10s documentos a 10s usuarios, actuando coma interfaz entre 6stos y 10s componentes
de1 documento o pagina web. En Segundo lugar, facilitan algunas prestaciones de
apoyo a la navegaci6n y a la exploracidn. Para la visualizackjn, vienen preparados
para mostrar documentos HTML, siendo posible expandir sus posibilidades mediante
la utilizacibn de plugins, o visores complementarios, para determinados tipos de
documentos. Cuando un navegador encuentra un tipo de document0 que no es capaz
de manejar, suele advertir al usuario sobre este particular, y ofrecerle la posibilidad de
obtener el plugin necesario para ello. M6s interesantes son las prestaciones de apoyo a
la navegaci6n y exploracibn. Las m8s utilizadas por 10s usuarios son 10s botones de
Back/Forward (Anterior/Siguiente) y Bookmarks (MarcadoreGavoritos). Los
botones de Back/Forward, situados en la barra de berramientas, permiten visualizar
10s documentos vistos durante la sesi6n activa, segtin la secuencia en que han sido
visitados. Basta una pulsaci6n para volver al anterior, o pasar al siguiente. La ventaja
BRA~MA CAPiTULO I: LA INFORMACI6N EN INTERNET: ESTR”CT”RA Y CONTENlDO 9
que ofrecen es que las paginas web son leidas de la cach6 o fichero intermedio propio
de1 disco duro de1 usuario, lo que evita nuevas conexiones y facilita la revisi6n de1
proceso de navegacidn seguido. El inconveniente es que no tiene memoria de sesiones
ant&ores, ya que ~610 est6 active en la sesi6n actual, y en el case de tener varias
ventanas abiertas, cada una de ellas tiene so propia historia.
Para terminar este apartado, una consideraci6n sobre tipos de ficheros. Como ya se
ha seiialado, la hipermedia permite integrar diferentes tipos de informaci6n,
almacenada en diferentes formatos de fichero, en un hnico documento. El marco es el
establecido por el fichero de texto con terminaci6n .htm/.html. Cuando nos
encontremos desarrollando un proceso de btisqueda, deberemos tener siempre en
cuenta que la mayor parte de la informaci6n contenida en formatos diferentes a texto
no es tratada por 10s motores de btisqueda, lo coal provoca que la informaci6n
contenida en on fichero en format0 Acrobat o PostScript, por ejemplo, no puede ser
objet0 de btisqueda, al menos con las herramientas actuales. Y debe pensar tambiCn
que en nomerosas ocasiones la informaci6n se encuentra incluida en un grifico (par
ejemplo, mentis), tampoco puede ser objeto de tratamiento. Y si no son tratados y
ax&ados,no puede ser usados coma criterios para recuperar informaci6n.
10 RECUPERAClbN DE LA INFORMACION EN INTERNET 0 RA-MA
5. Variabilidad temporal: Las p?iginas A con el contenido B son sustituidas por las
pziginas A’ (con la misma estmctura y presentacidn), pero con el contenido C.
Tambikn cabe la posibilidad de que las piginas A y el contenido B
desapxezcan totalmente de la web sin ser sustituidas o modificadas.
motor de btisqueda, por ejemplo, y la situacidn real de las phginas web en Internet.
Cuando tras la consulta de on motor, on usuario se encuentra ante el archiconocido
error 404, o el mensaje <<No se puede mostrar la pigina >>, se encuenba ante una de esas
disfunciones producidas por las dimensiones de wiabilidad.
En realidad, estos instmmentos existen. Son numerosos 10s intentos para dotar al
web de instrumentos de descripci6n de contenidos que faciliten, a so vez, la
recuperaci6n. La m8s conocida, por ejemplo, es el Dublin Core Mefadata Initiative
(informaci6n disponihle en http://purl.org/JX/). El Dublin Core intenta fijar unos
es&dares, aceptados por todos, para describir, usando palabras clave o descriptores,
el contenido informative de una pagina web, usando para ello las etiquetas <META>.
Junto a esta descripci6n tambikn itian la menci6n de responsabilidad intelectual de1
documento, dates sobre so ubicaci6n y versibn, etc. Sin embargo, estas iniciativas no
estan alcanzando el Cxito esperado, debido a que el nivel de descripc%n, por las
propias caracteristicas de la creaci6n y publicaci6n de paginas web, queda en el lado
12 RECUPERACKh DE LA INFORMACIdN EN lNTERNET ORA~MA
de1 responsable de las mismas. Todavia son pocos 10s usuarios que comprenden que
para posicionar sus piginas adecuadamente en el web, es tan importante la descripci6n
de contenidos, corno el contenido informative o coma el diseKo de la interfaz de
usuario.
Los usuarios tendian a desconocer que Internet era un recurso global, sobre todos
10s campos de1 saber, y que consecuentemente se podfan obtener resultados muy
diversos y sin relaci6n entre si. Como consecuencia de ello, no comprendian 10s
criterios que utilizaban las herramientas de btisqueda para ofrecer resultados, ni w&l
era el criteria de relevancia que establecia el orden de las respuestas. A lo anterior se
unia que muchos de 10s usuarios no tenian un concept0 claro de que se trataba de un
proceso de btisqueda o de recuperacidn de informacidn en entomos electr6nicos, ni de
las t6cnicas para seleccionar 10s tkrminos 0 expresiones m& precisas, ni tampoco
cu&les debian ser 10s criterios de calidad para seleccionar las respuestas m&s
adecuadas.
14 RECUPERACI6N DE LA INFORMACl6N EN PJTERNET 0 R&MA
Las ayudas basicas que deberian ofrecerse a 10s usuarios s&an la posibilidad de
conocer las fuentes de informackk, la orientaci6n y use de cada una de ellas, asi coma
la capacidad de desarrollar diferentes tipos de consultas, indicando en las respuesta
posibles categon’as jerticluicas de 10s documentos, e indicadores temporales y
geognificos sobre las paginas web. Como recomendaciones, 10s autores acababan
concluyendo que lo mAs importante era hater comprender al usuario que la
recuperaci6n de informacibn en Internet, o en cualquier entorno digital, no es un
evento, un suceso aislado, sino un proceso en el que intervienen diferentes factores, y
en el coal el usuario debia tomar decisiones, incluyendo la valoraci6n de las respuestas
obtenidas
CAPiTULO 2
FUNDAMENTOS DE
RECUPERACIdN DE INFORMACI6N
Una vez obtenidos 10s t&minos y las relaciones que deban utilizarse, las
expresiones resultantes deben transformase a un cctercer lenguajen, el coal cumple la
funci6n de interrogar, de una forma consistente y comprensible para el sistema
0 RA-MA CAPiTULO 2: FUNDAMENTOS DE RECUPERACI6N DE INFORMACIdN 19
de informacih textual
Indizach:
I. Extracci6n de tkrminos
_ 2. Palsbras vscias -
3. Stemming
4 Selecci6n de t6rminos
5. Creacih del indice
documento 6. Comwzskin
El proceso de creaci6n de estos ficheros permite conocer quk se puede pedir a uno
de estos sistemas. Cuando un sistema de recuperacibn de informaci6n debe introducir
la representacibn de un document0 textual, desarrolla un proceso de indizaci6n (o
indexacibn) automzitica (Baeza-Yates y Riberio-Neto, 1999), al que algunos autores
anteponen un preprocesamiento de1 documento. En cualquier case, Cstas son las fases
que se siguen:
0 W-MA CAPiTULO 2:FUNDAMENTOS DERECUPERACldN DEINFORMACI6N 21
1. Extracci6n de 10s t&minos: el sistema analiza todas y cada una de las cadenas
independientes de caracteres. Este analisis se hate desde una perspectiva
eminentemente lCxica, y so objetivo es identificar las palabras.
Los ficheros de fndice obtenidos suelen ser de gran tamaiio, por lo que se utilizan
tkcnicas de compresi6n (Witten, Moffat y Bell, 1999), de tipo estadistico, o usando
diccionarios o codificacidn particular, para obtener ticheros de menor tamario, con
vistas a su manipulaci6n en 10s sistemas informhticos de manera m8s bgil. Ademis,
existen diferentes algoritmos para desarrollar 10s procesos de indizacidn, que pueden
ofrecer en ocasiones diferentes resultados, debido a que se acompafian de tkcnicas
estadisticas, de ponderacidn de frecuencia, valor o peso de 10s t&minos, de
vectorizac%n, de redes neuronales, bayesianas y de inferencia, o usando t&nicas
de indizaci6n de semantica latente, aprendizaje simb6lico o algoritmos genkticos, que
desbordan el Bmbito de este texto.
2.4. EL PROCESO GENeRICO DE RECUPERAC16N DE
INFORMACI6N
El complejo proceso de recuperaci6n de informacibn engloba numerosas tareas, de
las que la consulta de recursos de informacibn electr6nica resulta ser una m&s de ellas
(Tramullas, 1997). El auge que estan teniendo en 10s liltimos aiios 10s sistemas de
informaci6n de todo tipo, desde las Administraciones Mblicas hasta las pequefias y
medianas empresas con sus sistemas de informaci6n contable, han favorecido que la
mayor parte de las actividades relacionadas con la blisqueda y localizaci6n de la
informacibn se desarrollen sobre sistemas informziticos. En cualquier case, context0 o
situacibn, puede establecerse, desde una perspectiva tedrica, pero apoyada en la
experiencia prktica, un modelo de proceso de recuperac%n, al que podrfamos
considerar agenkricox que seguitia las siguientes fases:
I
toma de decisiones
Presentacid” a, “S”P,iO
I I
Todas las fases son susceptibles de tratamiento informitico, aunque kste queda
claramente resaltado en las fases 5, 6, 8 y 9. La fase 10 tiene lugar cada vez en mayor
medida, gracias a la publicaci6n digital. La perspectiva traditional de la teledo-
cumentaci6n, ampliamente expuesta en numerosas obras de referencia (Salvador y
Ang6s, 2000), ha servido coma base a la estmctura de fases propuesta, aunque es
necesario puntualizar que la expansi6n y la aparici6n de nuevas tknicas informkicas
pueden modificar tanto el planteamiento coma la ejecuci6n de las acciones enca-
minadas a acceder a la informaci6n. Puede apreciarse que un componente clave son
las uexpresiones de btisquedao, que se engloban bajo la denominaci6n de ecuaciones.
Las caracteristicas de 10s lenguajes de recuperacSn, de 10s operadores que ofrecen y
de las reglas para formular expresiones seran tratadas en el apartado 2.6.
AND/Y
(product0 kgico)
NOT/NO
(resta lirgica)
Pueden dame situaciones en las cuales sea necesario utilizar no un tkrmino simple,
sino tambikn sus derivados, fijados por prefijacihn o sufijacidn, minimas variantes
Itkicas, etc. Para facilitar la blisqueda de este tipo se han introducido operadores de
truncamiento, a 10s que tambien se llama mkaras. Se trata de operadores (normal-
mente simbolos coma *, $), cuya presencia puede sustituir a un carkter o a un
conjunto de caracteres, situados a la izquierda, dentro o a la derecha de1 tkmino en
cuesti6n. Los operadores de limite y/o comparaci6n especifican el rango de bcsqueda,
fijando unos limites para la misma. Estos limites pueden ser tanto numkicos coma
alfabkticos, correspond&do 10s operadores a formas del tip” umayor quen, nmenor o
igual quen, o combinaciones de ktos. Se utilizan principalmente en documentos que
pueden contener datos numkicos.
LA RECUPERACIdN DE
INFORMACIdN EN INTERNET
Aunque todos 10s nodes adoptan la forma de pagina web, no todos 10s nodes son
de1 mismo tipo, ni ofrecen el mismo contenido informative. El usuario puede
encontrar pziginas web que contengan indices, noticias, trabajos cientificos,
recopilaciones de enlaces a otras paginas web, o presentaciones gr&‘icas. Incluso
puede encontrar pziginas web generadas din&micamente, que ~610 existen en un
moment0 dada, con contenidos creados a petici6n de1 usuario. Tambikn puede recibir
documentos, gracias al protocolo HTTP (que es el que emplean 10s servidores y 10s
navegadores para intercambiar informackk), que no scan pziginas web, sino ficheros
en format0 Adobe Acrobat, en PostScript, o ficheros de aplicaciones que admitan OLE
(como las aplicaciones ofimaticas m&s comunes). El componente principal de las
paginas web es el texto, ya que lo usa tanto para las instrucciones de presentacidn
(HTML), coma para presentar informaci6n. Este texto es el que utilizan las
herramientas de btisqueda y recuperaci6n de informacidn en Internet para representar
10s documentos en sus bases de dates.
Las herramientas de bhsqueda aplican sobre cl texto 10s principios que se han
explicado sobre recuperaci6n de informaci6n textual: indizaci6n automAtica, creaci6n
de ficheros inverses, compactaci6n. ..y, consecuentemente, 10s usuarios disponen de
las mismas prestaciones para la recuperaci6n: operadores booleanos, de posici6n,
vectorizaci6n... Al tratarse de un entorno abierto y cambiante, las herramientas de
btisqueda ofrecen listados de resultados, que dirigen al usuario hack el document0
original. Los cambios que se producen, por la propia diximica de1 web, hacen que en
ocasiones esa redireccibn no ofrezca 10s resultados esperados, y que en numerosas
ocasiones haya que completar la blisqueda mediante procesos de exploraci6n basados
en la navegacibn. Coma conclusibn, el usuario siempre debe pensar que no basta, en
recuperaci6n de informacidn en Internet, con seguir 10s resultados obtenidos de un
motor de btisqueda, por ejemplo. Esos resultados hay que explorarlos, analizarlos,
valorarlos, y seleccionarlos coma adecuados, o desecharlos coma no pertinentes. Las
herramientas de recuperaci6n de informaci6n en la web son un media mk, una fase
intermedia, no un fin.
El lector puede encontrar en Internet gran cantidad de tutoriales y g&s sobre c&no
localizar y recuperar informaci6n en Internet. Como en muchas otras cuestiones,
recuerde que wzada maestrico tiene su libricou. En todos ellos podrB encontrar ideas y
orientaciones de suma utilidad, y nosotros le recomendaremos algunos de ellos. En 10s
siguientes pirrafos se propone un proceso de recuperaci6n basado en la teoria de la
recuperacibn de informaci6n expuesta en el capitulo anterior. Y recuerde siempre que
la recuperaciSn de informaci6n no es un proceso y una actividad exacta: pueden haber
varias procesos y varias soluciones distintas para el mismo problema. Los especialistas
de la Biblioteca de la Universidad de California en Berkeley recomiendan siempre que
el usuario desarrolle sus proceso de birsqueda siempre xcon visi6n perif&icw:
aprender sobre el tema conforme se busca, variar las estrategias conforme se sabe m&,
y no abandonar ninglin m&do de btisqueda a menos que se encuentre lo que se busca,
o se aprenda alga nuevo.
El web contiene diferentes tipos de informaci6n, tanto por el tipo de fichero que 10s
contiene, coma por el objetivo y finalidad de las paginas web y de 10s creadores de las
mismas. Si esti buscando informaci6n sobre el tibur6n blanco, piense que puede
recuperar paginas web con historias de ataques a personas, con informaci6n de la
biologia de1 mismo, con informaci6n sobre excursiones en Sudifrica o en Australia
para verlo en acci6n, con paginas dedicadas a c6mics en 10s que aparece un tiburdn de
esta clase, con psginas dedicadas a la venta de documentales sobre el tiburbn, con
clubes de amigos de1 tibur6n blanco.. y un large et&era. Debe establecer la posible
utilidad de cada una de estos tipos de documentos, y no desdefiar ninguno a priori, ya
que por exploraci6n puede encontrar informaci6n complementaria que le sea de
utilidad
blisqueda, la expresi6n que reline 10s tbminos elegidos, y 10s operadores que
establecen las relaciones existentes entre aqukllos. Los motores ofrecen siempre
paginas de ayuda en las que explican las posibilidades de1 lenguaje de interrogaci6n
que usan, y suelen incluir ejemplos. No dude en consultarlas. Tambit% ofrecen
interfaces simples y avanzadas para formular las ecuaciones. En cuanto domine un
poco el funcionamiento de on motor, es preferible que utilice las interfaces avanzadas,
ya que le van a ofrecer m8s potential y paknetros que le ayudakn a perfeccionar las
ecuaciones y a obtener resultados mks ajustados. Si ha optado por war on agente,
tenga en cuenta que Me traducirA al lenguaje de cada motor la expresi6n que el
usuario introduzca, pero precisamente esa generalizaci6n hate perder la oportunidad
de usar operadores m8s restrictivos. Cuando haya dado todos estos pasos, pulse el
bot6n de Search, Find o Buscar, y espera pacientemente a que la herramienta que
haya elegido comience a enviarle las respuestas. En cualquier case, puede aplicar
algunas reglas bkicas:
1. Si busca on nombre proplo o una frase completa, use las opclones y operadores
de xfrase exactax (entrecomillando la expresi6n)
3. Si ha optado por usar siknimos, lo mejor es usar una expresi6n booleana que
relacione todos 10s thminos sindnimos usando el operador OR/O.
4. Si busca thminos de raiz similar, pero diferentes sufijos (par ejemplo, singular
y plural), use 10s simbolos de truncamiento.
4. Un breve resumen, creado usando las etiquetas <META>, las primeras frases
de la pagina web, o las cabeceras interiores de1 mismo, u otros criterios,
dependiendo de cada motor.
Estudie el listado de respuestas. En primer lugar, use 10s datos que le ofrece el
listado para desechar aquellos que no Sean adecuados. Si busca sobre el tibur6n
blanco, evidentemente un titulo coma xMotos acuaticas Tibur6n Blanco),, aunque
tenga un indicador de1 87%, no es un documento titil, y no hate falta pulsar el enlace
que le lleva al documento original. Si el titulo es <<La alimentacihn de1 tibur6n
blanco,,, no dude en explorar el documento. Pulse en el enlace que le lleva al
documento original. Para aligerar el trabajo, y evitar la sobrecarga cognitiva, use el
men6 emergente (bot6n derecho de1 rat& sobre el enlace), y pulse la opci6n Abrir en
ventana nueva... (Open in New Window...). De esta forma podra explorar el
documento, y otros relacionados con el mismo, sin perder la ventana con el listado de
respuestas, lo que facilitara nuevas exploraciones (en case contrario, ya se puede
preparar para empezar a war el bot6n Anterior/Back muchas veces, para al final
acabar desorientado). Si el documento, o documentos a 10s que ha accedido le
interesan, pase al punto 3.4.9. En case contrario, basta con cerrar la ventana que estti
documentos, o 10s documentos no contienen esos t&minos; b) que la ecuacidn
sea demasiado restrictiva, con demasiadas condiciones. Para estos cases, debe
probar con una ecuaci6n con menos condiciones, y war t&minos sin6nimos o
similares a 10s usados en la primera formulaci6n. Si tampoco obtiene resultados
positivos, pruebe a cambiar de motor, ya que no debe cegarse con obtener
resultados a la primera, y siempre en el mismo.
En el case de que decida ~610 imprimirla, para el control de 10s documentos no deje
de seleccionar, en las opciones de impresidn, que se incluyan el titulo de la pagina
web. el URL de1 original. y la fecha de impresidn. Esto le permitiri controlar si se
0 W-MA c,wiruLo 3: LA ~acunna,xroN tx twot+r.kctoN niv tivratwnr 47
Las limitaciones de1 enfoque traditional adoptado por 10s motores de btisqueda
llevan a proponer que Sean las mBquinas de 10s propios usuarios las que se encarguen
de la tareas de recuperaci6n de informacibn. Berghel (1997) ha propuesto tres fases
para superar esta situaci6n:
El nlimero de tutoriales y guias disponibles en la web sobre el tema que nos ocnpa
es muy elevado. En el siguiente listado hemos recopilado aquellos que se consideran
coma m8s interesantes, completes y claros para 10s usuarios, desde un nivel bkico, a
la utilizaci6n de tkcnicas avanzadas de btisqueda.
Yahoo! Computers and Internet Internet- World Wide Web Searching the Web -
How to Search the Web
http://dir.yahoo.com/Computers_and_Intemet/I
he-Web/How-to-Search-the-Web/
~C6mo buscar?
http://wfs.vub.ac.be/schools/timeline/search/Buscar/Buscal.html
How to Search on the World Wide Web: A Tutorial for Beginners and non Experts
http://www.ultranet.com/-egrlib/tutor.htm
SearchIQ
http:// www.searchiq.com/
LOS DIRECTORIOS
DE RECURSOS DE INFORMACIdN
Es por ello que resultan m&s litiles cuando no se tiene muy perfilada la necesidad
de informaci6n o bien cuando se buscan recursos de tipo general. Presentan tambi6.n
un motor de blisqueda interno para localizar directamente recursos incluidos en la base
de datos sin que se tenga que explorar el directorio tenStic obligatoriamente, es
decir, tambit% se pueden ejecutar ecuaciones de btisqueda y plantear consultas
mediante palabras clave.
Los servicios de consulta basados en directories han Ido mcorporando cada vez
m&s prestaciones convirti&ndose en una puerta de acceso a todas las posibilidades que
ofrece la red Internet. Esta evoluci6n ha dado lugar a lo que, hoy dia, se denominan
uportalew. Un portal es un conjunto de servicios que pretenden satisfacer todas las
necesidades de1 navegante de Internet aunque, obviamente, es bastante dificil ajustarse
a las demandas de millones de usuarios potenciales. Por esto, 10s portales de carkter
general son m&s adecuados para usuarios principiantes mientras que 10s veteranos
prefieren 10s portales temiticos, especializados en un determinado campo de inter&.
Los mejores director& generales de la red juegan sus grandes bazas en dos de las
mayores Breas d e demanda d e 10s internautas actuales: las n o t i c i a s e n linea y
cuestiones de finanzas personales, ofrecen tambien acceso a compra en linea y a
variados servicios: directories de pBginas amarillas y blancas, la balsa, el tiempo,
correo electr6nic0, chnt (conversaci6n con otros internautas). etc. La carrera por ser el
mejor portal no ha hecho m8s que empezar.
Figura 4.2. Portal Tel&polis
Por otra parte, 10s directories especializados centran toda su actividad en torno a on
tiea tem&ica muy concreta e intentan incluir en sus bases de datos y procesar
(analirar, resumir, evaluar y organizar) todos 10s recursos de la W3 sobre ese tema. En
muchas ocasiones, estos directories ofrecen informaci6n mocha m8s completa y iitil
que la de las herramientas generales. Asimismo, hay directories especializados de
carzlcter national.
4.4.1. Yahoo!
AdemBs, se puede restringir la b6squeda a ““a pate de1 documento (t: titulo, U:
URL) y realirar truncamiento. usando e l a s t e r i s c o , aunque tambiin tnmca
autom8ticamente.
3. D&de se encuentran las palabras claw. Los documentos que incluyen las
p&bras claw en el titulo tienen prioridad sobre 10s que las presentan en el texto
o en el URL.
La conexi6n con Yahoo! y con 10s dem& directories y buscadores, se puede llevar
a cabo introduciendo su direcci6n (URL) en la caja de diaologo que aparece bajo 10s
botones principales de1 navegador o desde la opci6n Archive y Abrir coma muestra la
figura 4.4.1.b.. Tambikn podemos acceder a la base de dates de Yahoo! a partir de
cualquiera de las muchas recopilaciones de herramientas de bhsqueda existentes en la
red.
Escriba la direcci6n lnternei de un documento o carpeta.
lntemet Explorer lo abrirk
wwuahoo.cam
Supongamos que somos seguidores de 10s torneos de tenis y queremos localizar las
pQ,inas web dedicadas a tenistas de relevancia mundial. En la park superior de la
pantalla, Yahoo! nos indica en quk categoria nos encontramos en cada momenta.
Como se trata de una blisqueda poco definida optamos por navegar a travks del
directorio. Para ello seleccionamos la opci6n CcDeportes y Ocion y, dentro de &a,
uDeportew. De las diferentes categorias que nos muestra elegimos, sucesivamente,
<<Ten& y &gadoresu, bajo cuyo encabezamiento Yahoo! nos muestra phginas
dedicadas a tenistas. Ya ~610 hay que pulsar sobre cada una para ver la pigina web
completa.
Figura 4.7. BGsqueda mediante categorias de Yahoo: Deportes
Otra prestaci6n a tener muy en cuenta es que desde cualquiera de las categorias
tematicas se puede plantear una consulta que afecte a esa parte de1 directorio. Por
ejemplo, para localizar informaci6n sobre un tenista determinado, por ejemplo Martina
Figura 4.9. Bhsqueda mediante motor interno de Yahoo!
-
r
Hay consultas que al ser m8s comptejas, con m8s condiciones, requieren la
utilizaci6n de la pantalla de bbsqueda avanzada. Si, por ejemplo, queremos localizar
noticias actuales sobre el efecto 2000 elegiremos las opciones: (das noticias de boy>>,
<<correspondencia exacta con la frasex, <cl mew (o cualquier otro period0 de tiempo) y
el nlimero de resultados por pagina que nos interese visualizar:
0 RA~MA CAPiTULO 4: LOS DIRECTORIOS DE RECURSOS DE INFORMACIdN 67
68 RECUPERAClONDELAINFORMAClbNENlNTERNET 0 RA-MA
4.4.2. LookSmart
perderse par el directorio, al descender por las ramas de1 tibbol jerirquico, se puede ver
el recorrido que se esta realizando a trav&s de 10s encabezamientos temzlticos, asi
siempre se puede saber d6nde se esta y regresar a cualquier categorfa de las ya
visitadas Gnicamente pulsando con el rat&. Ademris, no hay que olvidar que
LookSmart tambiQ ofrece access a Altavista par si la btisqueda en el directorio no
resulta de1 todo satisfactoria.
3. El tercer grupo muestra 10s resultados ofrecidos par Ahvista cuya gran base ae
dates incluye una parte bastante representativa de la Web. Es particularmente
Litil cuando LookSmart devuelve pocas o ninguna referencia. Si en LookSmart
no hay ninguna categoria o recursos web que coincidan con la btisqueda
planteada, 10s de Altavista seran 10s primeros y t’micos resultados mostrados.
Las paginas web que ofrece Altavista no han sido seleccionadas ni evaluadas
por el personal de LookSmart.
Una vez aqui podemos vcr 10s temas relacionados con Internet en torno a 10s
c@es LookSmart organiza las pjginas web de su directorio. Elegiremos aquilla
m& acorde con nuestros intereses hasta obtener la informaci6n relevante que nos
72 RECUPERACION DE LA INFoRMACloN EN INTERNET 0 RA~MA
LOS MOTORES
DE BirSOUEDA PARA INTERNET
Virtual Librmyl, una lista alfabCtica de mater&, que atin se mantiene y actualiza, con
enlaces a las paginas web correspondientes. Uno de 10s mejores intentos foe, sin duda,
The Mother of All the Bulletin Boards (MAAB), que pretendia generar on indice
global de recursos en la W3. Funcionaban de la siguiente manera: 10s creadores de
documentos en la red o 10s administradores de servidores enviaban la informaci6n
relativa a sus paginas web para que se incorporara a esta gran base de dams, y a
coatinuaci6n 10s g&ores de1 MABB trataban de in&jr cada n~evo registro utilizando
una clasificaci6n tematica preestablecida.
En esta linea, David Filo y Jerry Lang pusieron en marcha el directorio David and
Jerry’s Guide to the Web, con el fin de clasificar 10s recursos informativos de la W3.
M&s tarde, modificarian so nombre por el de Yet Another Hierarchical Ofsicious
Oracle, por cuya sigla -Yahoo!- es hoy mundialmente famoso siendo uno de 10s
servidores (sites) m8s visitados. Gracias a las aportaciones de miles de usuarios -y
del personal que trabaja en este servicio- el catBlogo mantenia, y mantiene, un
enorme listado bien ordenado de temas y enlaces hacia paginas web.
A pew de 10s esfuerzos por compilar y organizar 10s recursos que se iban
incorporando a la creciente telarafia, sin duda ahn quedaban muchos documentos por
cubrir y descubrir. Para llenar este vacio surgieron 10s motores de btisqueda o
buscadores propiamente dichos. !%tos cuentan con robots de btisqueda -programas
<<inteligentesx que localiran automz?ticamente 10s documentos presentes en la red- y
potentes programas de indizaci6n -que indizan aut6nomamente cada pagina
formando inmensas bases de dam-. La primera genera&m de buscadores hate so
aparici6n entre 10s adios 1993 y 1994. De 10s primeros destacaban WWWWorm y
WebCrawler. Sin embargo, tambiin por esas fechas comenzaron a darse a conocer
herramientas m8s potentes, coma Altavista, Excite, Infoseek, Lycos y Opentext.
Algunos de 10s primeros buscadores han desaparecido, otros han reorientado sus
c o n t e n i d o s y otros s e h a n afianzado coma 10s m8s i m p o r t a n t e s . Adem&,
constantemente se crean sistemas de blisqueda cada vez m5s avanzados, con interfaces
de consulta sencillas y funcionales.
Algunos de 10s aspectos relacionados con las bases de datos de 10s buscadores que
debemos considerar tienen que ver con so tamafio, la disponibilidad y la duplicidad de
10s recursos recuperados, asi coma el posible solapamiento de contenidos entre 10s
diferentes servicios de biisqueda que operan en la W3 (Notess 97):
de medidas, sino que se usan formas distintas para indicar cu6ntos recursos se
indizan. Las utilizadas con m8s frecuencia son:
La medida m& real, con las salvedades que se han indicado, es aquella que toma
en consideraci6n el niimero de paginas completamente indizadas y consultables
aunque, adem& 10s servicios de btisqueda debetian ofrecer tantos datos cuantitativos
coma fuera posible: 10s URL, documentos binaries coma sonidos e imBgenes, mimer0
de bytes de documentos indizados, nlimero de palabras indizadas, servidores, etc. De
10s m&s de ochocientos millones paginas web presentes en Internet, segiin estima-
ciones, 10s buscadores abaxan ~610 una proporci6n que puede oscilar sensiblemente
dependiendo de1 servicio de btisqueda de1 que se &ate. En cualquier case, el tamaiio de
la base de dates, aunque hate el servicio atractivo a 10s usuarios, no es determinante
de su calidad. Por esa raz6n surgen servicios m8s pequeiios pero con bases de datos
m8s selectivas y especializadas, que pueden ser la mejor ayuda para muchas de las
consultas.
Otros sistemas, coma Dr-Link, realiran un analisis m8s profundo e indizan a nivel
sintictico, semzlntico e incluso pragmitico. Sin embargo, el mayor nivel de anBlisis
semintico, posiblemente sea el de 10s sistemas que ofrecen informaci6n evaluada,
revisada e indizada por humanos, que se presenta en directories tem&icos coma 10s de
Yahoo, LookSmart, Excite o Infoseek.
Esta gran actividad de 10s robots en la red provoca ciertos problemas coma la
sobrecarga a la que se ven sometidos algunos servidores. Desde que se populariz6,
Internet se percibe coma un recurso gratuito y libre pero, a medida que se incorporan
m&s usuarios y se amplia su infraestructura y alcance, se pane de manifiesto que no se
trata de un recurso ilimitado y que se impone la necesidad de regular ciertos aspectos
de la misma. Sin entrar en consideraciones m&s profundas, tales coma la conveniencia
o no de promulgar una legislaci6n especifica, se hate inexcusable, al menos, esta-
blecer unas normas bkicas de actuaci6n. En el case de 10s fores de discusi6n o grupos
de debate (Usenet) y en el de las listas de correo se han generalizado unas pautas para
fomentar el respeto y el comportamiento responsable en la comunicaci6n, las
denominadas netiquetas o netiquette. Los robots, por su condici6n y finalidad, pueden
alterar en gran medida el equilibria en la red, consumiendo excesivos recursos y
creando demasiadas dificultades a 10s administradores de 10s servidores. Se pone asi
de manifiesto la necesidad de una e’tica en la W3. Por lo tanto, a pesar de todas las
ventajas de 10s robots de b6squeda de informaciSn, kstos corren el riesgo de suponer
un obstzkulo para el 6ptimo funcionamiento de la red, ya que pueden presentar
algunos peligros e inconvenientes que pasamos a enumerar a continuaci6n:
proceso, muchos robots realizan una recuperaci6n en paralelo, de tal modo que
incluso parks remotas de la red pueden acusar excesiva tensi6n si el robot hate
un gran nlimero de recuperaciones en un breve periodo, lo que se conoce coma
((fuego r&pido>> o rapid fire. Este bombardeo al que se ven sometidos 10s
servidores debe evitarse, puesto que provoca una escasez temporal de ancho de
banda para otros uses y usuarios, siendo aconsejable un mktodo donde la
recuperaci6n se realice de forma m8s pausada. Adem&, es recomendable que
10s servicios de blisqueda lance” sus robots en 10s mementos en que 10s
servidores y la red presentan una menor sobrecarga, es deck, fuera de lo que se
denominan las horas punta electrirnicas. fistas suelen coincidir con las horas
centrales de1 dia y con 10s dias laborables
Para intentar minimizar estos problemas, en 1993 Koster enunci6 unas directrices,
Guidelines for Robots W&m, ubicada en el URL http://info.webcrawler.com/m&/
projects/robots/guidelines.html donde, a modo de orientaci6n, se indicaba a sus
creadores 10s dafios que podian causar al lanzar su robot a la red. El documento, que
two amplia difusi6n, ofrecia algunas sugerencias coma las siguientes:
3. Que la norma sea un tanto ambigua y confusa y que sea necesario estudiar
m8s a fondo su eficacia y mejorarla.
Los memk desplegables hacen que la interfaz sea mucho m& intuitiva y facilitan
las blisquedas, por lo que muchas herramientas de consulta han ido incorporando
opciones presentadas de esta manera. Par otra parte, 10s gr~$‘?cos contribuyen a una
presentacibn agradable de1 servicio. Los hay que, desde el principio, optaron por
propuestas llamativas y ciertamente arriesgadas, corn0 Hotbot, hasta 10s que se
mantienen en un nivel de serena austeridad, coma Magellan. Estas presentaciones,
pensadas para gustos muy diversos, no son nunca determinantes para decidir la valia
de un buscador pero, desde luego, influyen en la primera impresi6n que se obtiene de1
servicio.
3. Resumen.
7. Lengua
Otro dato interesante aunque muy pocos buscadores lo muestren, nos puede
servir coma ejemplo Altavista, es la frecuencia o mimer0 de apariciones de cada
uno de 10s tkminos de la ecuaci6n de btisqueda en la base de dates, indicando en
cuantos documentos estan contenidas cada una de las palabras clave de la
consulta. Por Gltimo, y aunque e&n ordenadas por relevancia, cuando las
bfisquedas devuelven gran cantidad de referencias es muy titil que kstas
aparezcan numeradas. ya que, de otro mode, es f&i1 perderse en la larga lista de
resultados.
Muy importantes para orientarnos en la utilizaci6n de1 buscador son las pantallas
de ayuda y 10s ejemplos de blisqueda, asi coma la existencia de una opci6n de
blisqueda avanzada para consultas con caracteristicas o condiciones especiales.
1. Usenet: Los grupos de debate son una importante fuente de dams que se pueden
necesitar para acceder a determinada informaci6n que no haya podido ser
facilitada par el buscador en el transcurso de las consultas.
a) Motor de btisqueda
En relaci6n con las bu’squedas hay que considerar si el buscador acepta corno
ttknino de la pregunta cualquier palabra contenida en las piginas web (sin palabras
w&s) y la introducci6n de expresiones complejas (HzO, C++), si es sensible al use de
las maykculas y mimkculas y 10s acentos. Asimismo, hay que comprobx si permite
realizar el truncamiento. La biisqueda por conceptos o bkqueda aproximada es una
caracteristica muy valorada, por lo que se premiaria con 3 puntos al buscador que la
presente. Tambit% se puntha positivamente la posibilidad de usar partkesis asi cotno
operadores de proximidad y de otro tipo (coma can, must, must nof, should, should
not) para componer ecuaciones de biisqueda complejas. Otro rasgo a destacar es si el
operador por defecto (que el programa afiade autom&icamente entre 10s tkninos de la
btisqueda) es and, lo curd resulta muy Gtil para usuarios noveles. Se puntk
positivamente la ayuda en realizaci6n de las btisquedas, es decir, la posibilidad de
reducir 10s resultados (plantear una blisqueda sobre las referencias obtenidas),
blisqueda mediante ejemplo (que ofrezca referencias similares a la que nos interesen),
use de un tesauro (que proponga tktninos de bhsqueda relacionados con 10s de nuestra
consulta), asi coma otras caracteristicas de btisqueda coma delimitar por lengua,
fecha, etc.
Cada vez con m&s frecuencia 10s buscadores permiten, desde el mismo motor,
realirar otras blisquedas, adem& de localizar paginas web (ficheros de sonido, de
imigenes, de video, etc.), lo que sumaria puntos. En cuanto a la presentaci6n de Zos
resultados hay que evaluar si el buscador muestra el nfimero total de referencias
(hits) resultantes de la btisqueda, si se indica la frecuencia de cada tkrmino de
btisqueda en la base de dates, si permite limitar el nlimero total de referencias
recuperadas, si permite establecer el nhmero de referencias por pantalla, si las
referencias recuperadas aparecen numeradas y si oferta diferentes formatos de
presentaci6n.
b) Base de datos
El tama& de las bases de dates de 10s buscadores web es uno de 10s temas m&
controvertidos en relaci6n con la recuperaci6n de informaci6n en Internet. Es casi
imposible saber el volume” exact0 de documentos disponibles tanto en la propia W3
coma en las bases de dates compiladas por estos servicios de blisqueda. En ocasiones,
desde istos, se pueden inflar las cifras para mejorar la image” de1 buscador en cues-
tibn. Si, coma se indic6 en un capitulo anterior, el volumen estimado de la W3 se sitlia
en torno a 10s ochocientos millones de p&ginas, la referencia minima utilizada en un
buscador debera encontrarse por encima de 10s cien, e incluso ciento cincuenta,
millones de p8ginas. No ~610 el tamario, sino tambi6n la actualizacidn de las bases
de dates, es decir, el period0 de tiempo en el que el robot rastrea toda la W3, es
algo que se debe tener muy en cuenta. Habitualmente, 10s dates de que se dispo-
nen son 10s que 10s buscadores de&ran sobre si mismos, por lo que su total
fiabilidad no esta garantizada y, en ocasiones, se pueden encontrar m& referen-
cias con enlaces obsoletes de lo que declaran. Se puntha de 1 a 3 dependiendo de
la mayor o menor frecuencia de actualizaci6n.
c) Interfaz
En este apartado se deben analizar 10s aspectos que influyen en la presentaci6n de1
buscador y en la ayuda que presta al usuario que quiere sacarle el maxima provecho:
la calidad de 10s gr@cos, uno de 10s aspectos m&s subjetivos en la valoraci6n de un
buscador, la ayuda que ofrece, en esta ocasi6n referida a la informaci6n que ofrece el
servicio sobre si mismo (documentacidn) y a la presencia de men& desplegables. Hay
que valorar tambidn que permita guardar la conJiguraci6n de btisqueda para poderla
utilizar en otras ocasiones, que cuente con una interfazpersonalizable, con servidores
duplicados (mirrors) y versiones nacionales.
A pesar de 10s problemas expuestos, hay cada vez m8s servicios que utilizan varies
m&ores simultBneamente y permiten a 10s usuarios ordenar 10s resultados, eliminar
duplicados y verificar la disponibilidad de 10s enlaces. La investigacidn en este tipo de
herramientas se centra en ofrecer al usuario mayor control, combinando bhsqueda y
browsing y ofreciendo resultados basados en SIX preferencias especificas. Adem& de
10s megabuscadores en linea han proliferado 10s metabuscadores que actlian como
agentes personales y se ejecutan desde el ordenador de1 usuario. Ejemplos de este tipo
de herramientas son Internet Fast Find, WebFind, EchoSearch, WebCompass y
WebSeeker.
PRINCIPALES
MOTORES DE B‘iTSOUEDA EN INTERNET
6.1. ALTAVISTA
~610 muestre un resultado por cada servidor y asi hater el conjunto de resultados &is
plural y diverso.
Altavista afirma que su base de datos no cuenta con una lista de palabras vacias
aunque, si la bcsqueda devuelve correspondencias demasiado numerosas, Altavista
ignora las palabras muy frecuentes en 10s documentos, thminos coma Internet o
World Wide Web no pueden ser localizados. El programa permite refinar la bkqueda;
para ello sugiere una serie de tQminos relacionados que se pueden aiiadir o excluir de
la ecuaci6n de btisqueda. Altavista tambikn cuenta con un revisor ortogrifico que
sugiere posibles ortografias alternativas para usarse en bhsquedas sucesivas.
Uno de 10s kasgos nGs notables es la bhsqueda por campos o etiquetas. Altavista
acepta, en sus dos modes de consulta, el use de palabras clave para limitar las
bhsquedas a las paginas que respondan a criterios especificos propuestos tanto con
relaci6n a su estructura coma a su contenido. Permite el use de las etiquetas de tftulo
(title), URL (uvl), dominio (domain), servidor (host), texto de1 hiperenlace (nnchor),
direcci6n de1 hiperenlace (link), image” (image), aplicaci6n Java (applet) o de1 texto
(text).
Altavista cuenta con una opci6n para personalizar las bkquedas adaptindolas a 10s
intereses de cada usuario. Se puede elegir la lengua en que han de estar las paginas
recuperadas y el tipo de format0 de 10s resultados, adem& de contar con versiones
disponibles para consultarlo en 25 lenguas diferentes. El programa usa la inteligencia
artificial para identificar la lengua de las pBginas web individuales, permitiendo
delimitar las besquedas. Si se es usuario habitual de este servicio interesa registrar las
preferencias de bfisqueda para que Altavista las tenga en cuenta cuando ejecuta las
consultas; para ello no utiliza registros de identificacidn (cookies) coma hacen otros
buscadores, sino que asigna un nuevo URL a las caracteristicas sefialadas por 10s
usuarios para usarla coma direcci6n preferida (bookmurk) desde el navegador siempre
que sea necesario.
Mediante Ahvista Network se puede acceder a 10s servidores de1 buscador
situados m8s pr6ximos al lugar desde donde se estB consultando, lo que proporciona
m& velocidad en las conexiones, y servicios con contenidos dedicados a cada regi6n
especifica y con una interfaz en su lengua. Altavista cuenta con servidores duplicados
o mirrors ubicados en Africa, Asia, Australia, Canad& Europa, Iberoamkrica y 10s
Estados Unidos. Aunque se supone que son reproducciones idknticas de1 indice
principal Altavista, de hecho, casi nunca es asi, ya que incluyen menus paginas que el
servicio principal, ofreciendo resultados no tan exhaustivos y sustancialmente dife-
rentes al Altavista de California.
Al&vista puede manipular muy rapidamente las consultas constituidas por frases,
combinaciones complejas de tkminos, bfisqueda por etiquetas y en 10s grupos de
noticias o Usenet. Cuando dew&e 10s resultados de una consulta en la opci6n de
bhsqueda simple, Altavista 10s ordena seglin so relevancia basindose en 10s siguientes
criterios:
a,taViSta SEARCH
k-’ 1
Bc+o Ldirn yn !I* i-h, AYdyvbl -~-~,IB;jl
2, - - Ds!m ,L t.% ~w”% r#% 24 CL z& c% ,m% &
DwGbi 62 http ilWUIi a,lanjla /om>/o, b,nh”D,“ioo=_~Vlhl_Y.bl ri’
altaVISta:SEARCH A
pI.Lo”ylld
Hay prestaciones que estin dirigidas, principalmente, a usuarios con cierto nivel
de experiencia en el use de herramientas de biisqueda. Altavista cuenta con la
posibilidad de buscar informacidn partiendo de determinadas caracteristicas formales,
estructurales, y de ubicaci6n en la red, de las paginas web incluidas en su base de
dams. Este tipo de consultas se han de plantear (tanto en la opci6n de bhsqueda
simple, que es la que aparece por defecto, coma en la de blisqueda avanzada) por
media de diferentes etiquetas de 10s documentos coma ntitulon, <<dominiw, <<urlu,
<<hiperenlace>>, entre otras. Se pueden dar cases diversos. Algunos ejemplos de
blisqueda s&an:
5. PBginas web con enlace a las de la NASA linkmasa. Las paginas recuperadas
deberan contener al menos on hiperenlace cuyo URL recoja el tt%nino nasa, lo
que hate suponer que conducirBn a paginas de la Agencia Espacial
Para visualizar cada uno de 10s resultados ~610 hay que pulsar con el rat6n en el
titulo de la referencia recuperada. Si, una vez en la pigina web que se haya
seleccionado, se quiere volver a la pigina de resultados y seguir mirando ~610 hay que
pulsar el bot6n <<At&n o <<Back>> de1 navegador.
pagina se ofrece el titulo, el URL, el tema bajo el que esta clasificado en el directorio y
el comentario que se ha hecho. Adem& al entrar en cada uno de estos canales se
pueden localizar sitios web de calidad incluidos en la Guia Excite (Exci& Web Guide).
La Guia esta elaborada por expertos de Excite y contiene m8s de diez mil sitios
seleccionados.
El otro modo de consulta se efectfia mediante la base de dates de1 buscador; cuando
el usuario conecta con Excite encuentra la pantalla principal con una ventana de
consulta que admite btisquedas en lenguaje natural, biisqueda por frases, use de 10s
delimitadores + y -, asi coma de 10s operadores booleanos and, or y and not. Para
ecuaciones complejas, las condiciones de blisqueda se pueden agrupar con parCntesis.
Excite organiza 10s resultados en tres grupos: a) encabezamientos tematicos de1
directorio que responden a la blisqueda planteada, b) articulos de noticias de
actualidad relacionados con la consulta, c) p&&s web. De estas hltimas Excite
muestra 10s resultados ordenados por relevancia y permite war las referencias
recuperadas coma ejemplo para ampliar la blisqueda, mediante la opci6n snore like
this link>>. Curiosamente, el programa no informa sobre el nfimero total de resultados
pertinentes en cada blisqueda. Presenta diez referencias cada vez, comenzando con 10s
documentos 1~8s relevantes, de 10s que ofrece el titulo, el URL, un breve resume” de
su contenido y un hiperenlace que conduce a documentos similares a &se. Si se pulsa
la opci6n ccsolamente titulow (Titles only) no se mostrara el resumen, tambien se
puede ordenar por servidores (ordenadores que alojan documentos web) que contienen
paginas web sobre ese tema y acceder a cada uno de ellos para obtener m&s
informaciSn.
servidores contienen la mayon’a de las paginas web y acudir al servidor con m&
informacibn. En ningtin case admite el truncamiento.
Cuando presenta 10s resultados de una consulta, Excite muestra, junta a cada
referencia recuperada, un hiperenlace con el texto <cm& coma Me>>. Esta tkcnica de
recuperaci6n se denomina nconsulta mediante ejemplon o query by example. Si uno de
10s resultados responde mejor a la intenci6n de blisqueda, se pulsa ese hiperenlace y el
buscador usa el document0 coma ejemplo en una nueva blisqueda para asi encontrar
otros recursos similares a &se. La bhsqueda se reinicia usando el ejemplo coma una
nueva fuente de informaci6n para la pregunta. Esta blisqueda interactiva da al usuario
m& control sobre el proceso de blisqueda puesto que puede encontrar otros docu-
mentos coma el seleccionado, y 10s resultados recuperados son m8s acertados, ya que
se trabaja con tkrminos m8s cualificados (Sugihara 95). Asi pues, Excite acttia de
forma ainteligentes buscando, no ~610 a partir de las palabras clave introducidas, sino
tambiin, a partir de ideas relacionadas. En la teoria es una herramienta exceptional y
en la prktica ofrece resultados bastante aceptables. Lo que en realidad hate Excite es
extraer 10s tkrminos m8s relevantes que se repiten en un documento. Si esos tkminos
se encuentran cercanos entre si, Excite aplica un an&is estadistico basado en ciertos
algoritmos propios que determinan el tema de1 que trata el documento. La ordenaci6n
de 10s resultados se establece sobre la base de1 coeficiente de relevancia asignado a
cada referencia, generado automaticamente por el buscador, que compara la informa-
ci6n contenida en cada document0 con la ecuaci6n de bfisqueda. Este coeficiente se
express porcentualmente. El 100% indica una mayor confianza en que el resultado
responda a las necesidades informativas del usuario.
Excite responde muy bien a blisquedas sencillas, presentando una interfaz Clara y
eficaz. La blisqueda de paginas relacionadas con las de 10s resultados de la consulta a
veces conduce a servidores interesantes y las p&bras que sugiere para refinar la
blisqueda pueden resultar titiles. Por otro lade, se podrfa perfeccionar la extensi6n de
la consulta mediante conceptos, ICE, asi coma la bfisqueda de documentos relacio-
“ados con las referencias recuperadas (more like this li&). Se ha de mejorar la
informaci6n de ayuda, ya que puede ser dificil encontrar la documentaci6n realmente
necesaria y llega a ser confusa, con demasiados datos y pocos ejemplos de blisqueda.
En cuanto al use de1 directorio, es dificil orientarse en la maraiia de hiperenlaces,
opciones y secciones con las que cuenta cada pantalla por la que se‘ha de pasar. Esto
requiere un estudio detenido de las pantallas de ayuda con informaci6n detallada sobre
el use de 10s canales. A pesar de estas pequefias desventajas, Excite aplica ideas
practicas y originales y es una buena elecci6n para usuarios que requieren un buscador
de gran nix1 que ofrezca resultados precisos y. al mismo tiempo, acceso a servicios
diversos en una sola herramienta.
6.3. HOTBOT
En so faceta de buscador, Hotbot es uno de 10s que cubren m&s URL, en torno a 10s
110 millones, ha logrado una popularidad significativa y ha asentado su posici6n en
las preferencias de 10s usuarios. Es un buscador potente y bien disecado, con una serie
servicios afiadidos de gran utilidad. Cuenta con operadores booleanos y opciones de
blisqueda ciertamente innovadoras y originales, numerosas bkquedas mediante
etiquetas y varies tipos de tnmcamiento, y diferentes formatos de presentaci6n. Todas
las opciones disponibles, que son muchas, es& presentadas claramente mediante
ventanas, mentis desplegables y botones. Aunque no admite el use de operadores de
proximidad y su lista de palabras vacias es problematica para algunas btisquedas,
ofrece caracterkticas adicionales poco comunes en el resto de las herramientas de
consulta: la posibilidad de configurar las opciones de btisqueda, y es Gnico en cuanto a
la bfisqueda de ficheros con caracteristicas multimedia especificas. Tambikn se puede
limitar la btisqueda por pais o por nombre de dominio en Internet. Asimismo permite
consultar millones de mensajes Usenet recientes.
6.4. INFOSEEK/GO.COM
En enero de 1994, Steve Kirsch, tras inventar el rat6n dptico, fund6 su tercera
empress, Infoseek, con el objeto de ayudar a la gente a ccdesatar el poder de Internet>>.
Infoseek (http://www.infoseek.com, http://infoseek.go.com), desde principios de 1995,
es uno de 10s buscadores m8s conocidos y utilizados de la W3. El antiguo Infoseek
Guide ~610 contaba con uno o dos millones de URL indizadas. En junio de 1996,
Infoseek Corp. adopta la tecnologia de Rank Xerox para crear un buscador llamado
Ultraseek que permitia actualizar ripidamente la informaci&, realizar btisquedas por
la raiz de una palabra en varies idiomas y atender 1000 preguntas por Segundo. En
1997 Infoseek incorpor6 canales de contenido que permitian a 10s usuarios acceder
cdmodamente a diversas Areas de inter& y, al ario siguiente firma una alianza con
Walt Disney, lo que conduce a la creaci6n de1 portal Go Network, diseiiado para ser
<<no ~610 un punto de partida para 10s internautas sino, sobre todo, un destinon.
Infoseek utiliza el robot Ultraseek Server para compilar una base de datos de texto
complete que recoge varias decenas de millones de URL con actualizaci6n frecuente,
a la que se afiade la posibilidad de acceso a paginas web mediante categotias
jerarquicas de materias y <<canales inteligentew. Infoseek es una herramienta muy
popular en Internet debido a varias razones: por una parte se trata de un servicio de
btisqueda sencillo y potente que permite, tanto a 10s usuarios noveles coma a 10s
experimentados, encontrar informaci6n f&cil y rzipidamente; por otra parte cuenta con
uno de 10s mayores directories de paginas web; y. adem&, incluye un directorio de
recursos evaluados por expertos (Co Guides).
btisquedas a aquellas paginas que tengan un enlace hacia la que indique el usuxio
(hyperlink). Permite war 10s operadores must, should y should nor, decidir el formato de
presentaci6n, con o sin resumen, y el ntimero de resultados por pigina. Cuenta, adem&,
con la posibilidad, no muy frecuente, de restringir la bdsqueda a alguno de 10s veinte
paises contemplados por el servicio, a diecisiete zonas geogrificas diferentes o a uno de
10s cinco dominios incluidos: .com, .edu, .gov, net y .org. Tambikn se pueden excluir
10s resultados provenientes de un determinado dominio. En ningtin case admite el
tnmcamiento ni el use de 10s ya tradicionales operadores booleanos. La bfisqueda puede
refinarse limittidolaal subconjunto resultante de la bfisqueda anterior y personalizarse
contemplando 10s intereses especificos de 10s usutios. Los resultados aparecen
ordenados segcn su relevancia y muestran el valor de &a para cada referencia
recuperada expresada porcenhmlmente. Hay dos formatos de presentacibn: el estandar
(que recoge el titulo, las primeras palabras de1 docurnento a mode de resumen, la
puntuaci6n de relevancia, el URL y el tamafio en Kb) y otro format0 sin resumen.
Debido a que son personas, y no on ordenador, 10s que compilan, seleccionan y evahian
la informaci6n, aqui ~610 aparecen las paginas web que sobresalen por so calidad.
Desde que surgi6 el primer directorio tematico de Infoseek (Infoseek Guide), este
servicio de btisqueda ha sufrido altibajos en calidad y v&men de usuarios pero, en la
actualidad, el directorio y buscador Infoseek se ha superado a si mismo y constituye
una herramienta muy versAti1. Ofrece muchas prestaciones adicionales litiles, incluida
la entrega de noticias por correo electr6nico y la traducci6n de su interfaz y las
pantallas de ayuda a diversas lenguas. Tambien tiene recursos especificos para
distintas &as geogrLficas. El motor no discrimina entre mayrisculas y minhsculas,
pero permite btisqueda de frases, de conceptos relacionados y de nombres propios,
producienda resultados muy relevantes. En resumen, es ficilde war y cuenta con una
buena interfaz, la ayuda es simple y Clara y se ofrecen ejemplos de btisqueda. Es una
muy buena herramienta que concentra diferentes opciones para satisfacer diversas
necesidades.
6.5. LYCOS
Pronto se convirti6 en uno de 10s buscadores preferidos por 10s usuarios, ya que
ofrecia la posibilidad de consultar un catBlogo relativamente grande mediante palabras
de1 contenido de1 documento. Cuando Netscape Navigator fue lanzado ampliamente al
mercado a finales de 1994, el personal de Netscape Communications Corporation
incluy6 una pagina que ofrecia acceso a varias herramientas de blisqueda en Internet.
Realizaron una rapida y poco refinada prueba y decidieron que Lycos era el que
ofrecia mejores resultados, por lo que optaron por presentarlo el primero de la lista de
buscadores (Notess 95). La amplia utilizaci6n de este navegador provoc6 una fama
0 W-MA CAPfTUI.0 6: PRlNClPALES MOTORES DE F3irSQUED.A EN INTERNET 125
creciente para Lycos, que in&so lleg6 a sufrir problemas de sobrecarga, pero sirvi6
para impulsarlo definitivamente comc~ uno de 10s primeros grandes en la historia de
10s localizadores de pBginas web.
Actualmente Lycos es un buscador producido por Lycos Inc. que, segfin dates
obtenidos de la interesante pigina web de D. Sullivan (99), indiza autom&ticamente 50
millones de URL con una actualizaci6n semanal y permite realizar consultas tomando
coma base toda la W3 o bien determinado tipo de ficheros e informaciones: grupos de
discusi6n, noticias, el tiempo, ciudades, compras, libros, recetas, FTP, mhsica,
imigenes, sonidos, pfiginas personales, entre otros. Cuando el usuario conecta con el
buscador encuentra la pantalla de biisqueda simple con una ventana o caja de
bfisqueda en la que plantear la consulta.
2. Far, opuesto a near, para indicar que 10s t6minos habran de estar
separados, coma minimo, 25 p&bras entre si en el documento
recuperado, al menos en un case.
3 . B e f o r e funciona coma and, pero 10s t&mnos ae la pregunta han de
aparecer en el orden que indicamos, si bien pueden estar a cualquier
distancia entre si en el documento.
4. Adj, para tkrminos adyacentes en cualquier orden.
Lycos cuenta con una presentaci6n atractiva y simplificadora. Sin embargo, las
diferencias entre la versi6n principal (la norteamericana, www.lycos.com) y las
versiones n&males quiza conduzcan a crear una ligera confusi6n entre 10s usuarios
menos familiarizados con el servicio. Lycos cuenta con ayuda suficiente y fkilmente
localizable para realizar las btisquedas. Su interfaz es Clara y orienta bastante bien al
usuario. Sin embargo, se echa en falta m&s informacibn sobre la historia de1 buscador,
el m&do de indizaci0n utilizado, el funcionamiento del robot, etc. En resumen, Lycos
es un buscador que ha ido adaptandose al crecimiento de la W3 y a las exigencias de
10s usuarios. Si bien 10s resultados no son siempre 6ptimos en cuanto a niimero y
calidad, es una buena herramienta, por su facilidad de “so, para un primer acer-
camiento a 10s motores de b6squeda y cuando no se pretenden resultados exhaustivos
ni muy extensos. Con las opciones de b6squedas nacionales ha mejorado so atractivo
Desde la option de bfisqueda avanzada hay dos ventanas de consulta, una por si se
desea buscar en la base de dates de recnrsos web y otra para consultar la Colecci6n
Especial de Northern Light. En la primera se permite la blisqueda por campos para
palabras de1 tftulo y palabras incluidas en el URL. En la segunda ventana se puede
limitar al titulo de una publication especffica de la Coleccion especial. El limite de
fecha puede ser un periodo de tiempo o indicando antes o despues de una determinada
fecha; cuenta tambien con una option para ordenar 10s resultados por fechas.
Para delimitar por fuentes mnestra varias divisiones como periodicos y revistas.
noticias, recnrsos web educativos, paginas personales y recnrsos gubemamentales. El
limite de lengua esta disponible para el ingles, franc&, espafiol, aleman e italiano. La
blisqueda avanzada incluye la capacidad de restringir 10s resultados a 10s servidores
web de 10s paises seleccionados. Las categotias generales de materias pueden nsarse
para limitar el volumen de resultados recuperados. Los limites por tipos de docu-
mentos incluyen information empresarial, material de aprendizaje, directories y listas,
notas de prensa, preguntas y respuestas, etc.
ri 8, r d
-+j MC @ zma drinunn
U~*ou loo*hgla:
/ i11l1)io
al’tiela Y~waId
,
D,rIc*orvL,.*,w /
Ayd,o,nPIF,Ic /
NIIIU.“UO. , il”.1~.“I
paliF’. nsn
ai,e,a, Rr,ouan,sllr,~~ , , ,. ,Mrllru
:.,,.
,O”OilTtRlC,O,ICS L.~:*PFI,TOINO~YXII~~NIOI1Tl~ll~lnYralarlil,2sUI
Ir..YI”,,,.Id-.-L”i-iOlhhlm,~:~I L,lpl,a. ,A! <, ., ~->a ,
jinrriccwnt
/I Em : : c --INUN”,” NII(VIUW Mr I; m,n,my,,, mmre rl
61 W”.l,urrn, @r..,*,m..i
Otra prestaci6n que permite locahzar recursos relacionados con 10s resultados
obtenidos es Newsgroups para grupos de discusidn afines a la consulta planteada. En
el case de que el tema lo requiera, hay otras dos posibilidades: Audio MI?3 Files, para
localizar ficheros de mtisica y sonido a partir de1 nombre de1 artista, de1 Blbum o titulo
de la canci6n y Auctions, que informa de subastas organizadas por 10s principales
servicios de este tipo en la red, hasta treinta, ejecutando las biisquedas simult&
neamente en todos ellos (Amazon.com, eBay, Yahoo!, entre otros).
El nso de la option de bnsqueda avanzada debe restringirse a consultas con
condiciones especfficas. Pongzlmonos en el case de que deseamos que nuestra consulta
se dirija iinicamente a 10s buscadores que nosotros seleccionemos, por ejemplo,
Altavista, Excite, Infoseek y Lycos, y no a todos (dote en total) con 10s que trabaja
Metacrawler. Por otro lado, puede que queramos que 10s recursos recuperados
provengan de determinada area geografica, digamos Europa, que el tiempo de
blisqueda no exceda de un determinado periodo de tiempo, por poner, diez segundos.
Por hltimo, restringiremos el volumen de resultados recuperados por cada buscador
consultado a diez, indicaremos que no nos muestren m&s de diez resultados por
pantalla y que ordene las referencias en funcion de sn relevancia a la pregunta.
Hay prestaciones que estan dirigidas, principalmente, a usuarios con cierto nivel
de experiencia en el manejo de estas herramientas o bien que van a hater un use
continuado de ellas. Metacrawler cuenta con la posibilidad de registrar las preferencias
de biisqueda que 10s usuarios manifiesten, y utilirarlas cada vez que tengan necesi-
dad de plantear consultas. Con esta prestaci& podemos adoptar varias decisiones que
constitniran la configuration que el metabuscador utilizara por defecto, es decir,
siempre que no se indique lo contrario:
6.8.1. MetaCrawler
6.8.3. Dogpile
Como otros buscadores mfiltiples, Dogpile limita 10s resultados a 10s dier primeros
registros recuperados en cada base de datos. Esta tt5cnica funciona mejor para palabras
o frases raras o linicas. Al comienzo de la lista de resultados, informa de1 ntimero total
de items recuperados. En primer lugar se muestran 10s resultados provenientes de las
tres primeras bases de datos que respondan. Si se quieren m&s items hay que pedir 10s
resultados de las tres siguientes, por lo que la revisi6n exhaustiva de las referencias
recuperadas puede convertirse en un proceso tedioso.
Por ejemplo, un virus que llevase a cabo alguna maldad en una fecha dada, es uno
de 10s ejemplos m& bkicos de agente. De la misma forma, 10s programas de
mantenimiento de sistemas o de estructuras de ficheros, que avisan de la necesidad de
ejecutar una accibn de reparaci6n u optimizacibn, corresponden a las versiones m&
basicas de agentes de software. Puede imaginarse que, coma en otras facetas de la
infornxitica, 10s productos comerciales m& comunes o extendidos, con la
denominaci6n de agente, no ofrecen todas las prestaciones posibles de un programa de
este tipo, ya que 10s productos en investigaci6n y desarrollo son m;is potentes y
vers&iles de lo que pueda imaginar.
Un agente de software, coma puede apreciar, es, en primer lugar, un software que
asiste a 10s usuarios y act6a coma lo harian ellos, desarrollando tareas que kstos no
pueden llevar a cabo, por cualquier motive usuario (Jennings y Woolridge, 1998).
Consecuentemente, en 10s agent&s se aplica la idea de la delegaci6n de tareas, de tal
forma que en su actuaci6n siempre beneficien 10s intereses del usuario. En cualquier
case, debe tener en consideraci6n que no todos 10s agentes tienen una relaci6n, una
interfaz, directa con el usuario. La creciente complejidad de 10s sistemas infornxlticos,
que se oculta bajo interfaces grificas aparentemente sencillas y fkiles de usar, se
enfrenta a la necesidad cada vez mayor de simplificaci6n, por park de1 usuario. Estos
problemas se van a resolver cada vez en mayor medida mediante la integraci6n de
agentes, encargados de asesorar y guiar al usuario en tareas comunes. Algunos autores
han sefialado la diferencia existente entre userbots (agentes para usuarios) y taskbots
(agentes para la ejecuci6n independiente de tareas, sin intervenci6n directa de1
usuario).
Los sistemas de agentes m8s conocidos de Internet son, sin lugar a dudas, 10s web
robots, agentes que desarrollan todo tipo de tareas en la World Wide Web (JuMn y
Botti, 2000). Los m8s populares y Stiles, al menos en lo que respecta al usuario
corntin, son 10s agentes de blisqueda de informaci6n, o senrchbots. Los motores de
bhsqueda alimentan sus bases de datos mediante la utilizaci6n de robots o agentes
bkicos, 10s llamados spiders, wanderers o worms, a 10s que delegan las tareas de
localizaci6n, acceso y copia de documentos, coma se ha explicado en capitulos
anteriores. Junta a kstos, cada vez en mayor medida aumenta la utilizaci6n de 10s
agentes personales para recuperaci6n de informaci6n, que a&an coma intermediario
en&e el usuario y 10s motores de btisqueda, tanto si &tos son de tipo general, coma
especializados. Todo ello sin olvidar que 10s sistemas de tratamiento de informaci6n y
documentaci6n electr6nica para las intranets de las organizaciones ofrecen agentes
construidos y especializados en la recuperaci6n y la difusi6n selectiva de 10s
contenidos informativos de la misma.
Las funciones tknicas que ofrece la actual generaci6n de searchbot es& muy
relacionadas con so funcionamiento directo. Es de esperar que 10s futures desarrollos,
una vez optimizadas las prestaciones bkicas, incidan m& profundamente en el apoyo
a las actividades de1 usuario. Las principales funciones disponibles en 10s searchbots
son:
Segiin este esquema, cuando un agente se comunica con otro, en primer lugar
acude a su diccionario para seleccionar 10s tkrminos a usar, que deben encontrarse y
estar permitidos en el mismo. Posteriormente, utiliza KIF para formular la expresi6n
de conocimiento e informaci6n a enviar al otro agente. KIF es un lenguaje de c&xdo
de predicados de primer orden que ofrece la semAntica a utilizar, la representaci6n de
reglas de razonamiento y las funciones de definici6n de objetos. La expresi6n creada
con KIF es <<envueltaa> en KQML, que aporta el formato de1 mensaje y toda la
informacibn necesaria de1 contexto en el que va a tener lugar la comunicaci6n. Un
mensaje en ACL seria una expresi6n en KQML, en la cud 10s argumentos s&an
tkminos o frases en KIF, formadas usando 10s tkminos incluidos en el vocabulario.
La interfaz de usuario es muy sencilla. En primer lugar, una ban-a de menlis, desde
la cual controlaremos determinados par&metros del sistema, asi coma las opciones
para guardar bhsquedas en nuestro ordenador. Debajo del men& se divide en dos
grandes espacios: El primer0 de ellos, bajo el titulo de Search Engines Selected, nos
informari de 10s motores usados en las blisquedas, y del desarrollo de la bhsqueda en
cada uno de ellos. En el lateral derecho aparece el b&n migico, Search, que
usaremos para definir las bdsquedas. El espacio inferior, Sites Found, ms mostrari
10s resultados de lx blisquedas, indicando el titulo de1 documento, el URL en el que
se encuentra, y las verificaciones y errores recibidos durante el proceso.
Figura 8.1. La interfaz de usuario de QueryN MetaSearch
resultados para una b6squeda ripida e introductoria, asi coma para introducirse en el
campo de 10s searchbots o robots de bfisqueda.
Los menlis de Hurricane Websearch ofrecen pocas funciones. File sSlo permne
establecer una conexi6n con la opci6n Connection Wizard (~610 interesante para
aquellos que no la tengan ya establecida), y salir de1 programa con Exit. El menii
Options permite una minima personalizaci6n, definiendo las preferencias de1 proxy (si
es necesario), en la opci6n Proxy Settings, de1 cliente web en Web Browser, y borrar
todo el hist6rico de blisquedas ya realizadas mediante Delete Search Results, opci6n
que serB explicada con detalle m&s adelante. El menfi Help ofrece ayuda sobre el
funcionamiento de Hurricane Websearch, y Register todo lo necesario para adquirir
una licencia.
Ahora podtia desarrollar una nueva blisqueda de informaci6n. Sin embargo, eso no
significa que desaparezcan 10s resultados de las anteriores. En cualquier moment0
puede pulsar sobre 10s botones correspondientes a 10s motores, situados en la parte
izquierda de la ventana de Hurricane Websearch. Se le abriri un menti emergente en el
cual podrzI ver las btisquedas desarrolladas, y pulsando sobre cualquiera de ellas tendri
acceso a 10s resultados parciales de la misma. Como agente personal, Hurricane
Websearch, en la versi6n analizada, resulta muy bisico, pero cuenta con la ventaja de
so rapidez, asi coma con el alto nlimero de respuestas vilidas que suele ofrecer. Si
necesita m8s prestaciones para sus tareas de recuperaci6n de informac%n, asi coma
control de duplicados u obtenci6n de copias de1 documento original, existen otras
herramientas que complementan las prestaciones de Hurricane Websearch.
WebFerret es on seurchbot de1 mismo estilo que QueryN MetaSearch. Web Ferret
es un product0 de FerretSoft LLC, y puede obtener una copia del mismo, asi coma
,I documentaci6n adicional, en http://www.ferretsoft.com. Cabe sefialar que, al igual que
j otros productos, la versi6n freeware ofrece menos prestaciones que las registradas o
‘, , ‘Jas versiones tipo Pro o Professional. Tambikn es este case el proceso de instalacidn es
, simple, ya que basta con pulsar dos veces el icono webferret.exe, y se lanza el proceso,
‘/ sue ~610 requiere definir el directorio de instalacibn, asi coma las caracteristicas de1
6 proxy de so red (en el case de que tenga alguno, lo mejor es consultar al administrador).
J
I 8.3.1. La interfaz de usuario de WebFerret
-@ interfaz de usuario es simple: una ventana de trabajo, con una barra de mentis, y
un campo, bajo el epigrafe de Page Containing, en el que se pueden introducir las
expresiones de bhsqueda. Debajo de1 mismo, opciones para osar el operador AND (All
keywords) o el operador OR (Any keyword). En las liltimas versiones dispone
adem& de las posibilidades de buscar frases o expresiones exactas (Exact phrase), o
bien introducir expresiones complejas que osen operadores booleanos, incluyendo
AND, OR NOT, (Boolean expression), y la posibilidad de combinar &tos con frases.
Puede encontrar ejemplos de blisquedas en la ayuda, accesible en el men6 Help,
opci6n Help Topics, icono How To... A la derecha, botones para iniciar la consulta
(Find Now), para detener!a (Stop), o para iniciar una noeva bhsqueda (New Search).
Esta ventana se amplia cuando se inicia la bfisqueda y se comienzan a recibir 10s
resultados. coma se ver& m8s adelante.
WebFerret es otra herramienta bisica, muy interesante para iniciar una btisqueda de
informaci6n en Internet. Sin embargo, la versi6n freewure ado&e de algunas
limitaciones, que se superan con la versi6n Pro. Ahora es el moment0 de que compare
10s resultados de la blisqueda con 10s obtenidos por QueryN, y recuerde todo lo dicho
hasta el moment0 sobre la estructura y funcionamiento de 10s motores de blisqueda en
Internet.
;I
r;4. I
l&h ~
/., $-Ed* ,* .’ .‘, BE
BullsEye’” by lntel,iSeek
”
liltimo, si desea excluir documentos que contengan ciertas palahras, escriha &as hajo
Enter the terms that CAN NOT exist.
Ahora que se dispone de una bkquedacon result a&s, han cambiado notoriamente
las opciones y posibilidades disponibles en la ban-a de men6 y en la botones. En el
menti File aparecen ahora opciones para guardar la blisqueda y sus resultados (Save),
para generar un informe de la bfisqueda realizada (Generate Report), o para exportar
las caracteristicas de la biisqueda (Export Search Settings). Tambiin podria fijar un
control de actualizaciSn de la blisqueda (Track), o enviar 10s resultados por correo
&ctrSnico (Mail). En el menfi Edit podria refinar la bkqueda dentro de 10s
documentos obtenidos mediante Advanced Refine Search, o bien marcar o desmarcar
10s documentos resultantes coma leidos o no, de cara a generar un informe (Mark y
SW opciones). El men6 View le ofrece opciones de ordenaci6n y de visualizaci6n de
10s resultados, coma View Results by Status o View Results by Score, Result
Layout, Result Columns, Summary o Highlight. Puede probar activando o
desactivando las diferentes opciones. A travks de1 menh Window acceder& a las
diferentes opciones disponibles en la columna de la izquierda de la ventana de
BullsEye, y el menli Help le ofrece una completa ayuda sobre las prestaciones de
BullsEye, y la forma de desarrollar recuperaciones de informaci6n exitosas. Por
Cltimo, la barra de botones le facilita iniciar nuevas blisquedas (New), o definir niveles
de anilisis (Analyze), refinar la expresi6n (Refine), cambiar el criteria de ordenaci6n
de respuestas (Results), o generar informes (Track). El m8s interesante puede ser el
bot6n Summary, que le permite cambiar entre el listado simple de resultados, y el
listado que ofrece el resumen de1 documento.
Una vez obtenida una copia de1 fichero de instalacibn, wsw953.exe, la familiar
doble pulsaci6n lanza el proceso, al cabo de1 cual tendr6 instalado WebSeeker en su
ordenador. Hay que destacar que la instalaci6n de WebSeeker instala en la propia
barra de tareas de Windows 95/98, en el Brea de sistema, el programa WebSeeker
FindNow, que permite lanzar una btisqueda a Internet tomando coma referencia texto
seleccionado en una aplicaci6n cualquiera de1 sistema. Este pequefio programa se
carga siempre al iniciar Windows, pero puede desactivarlo en cualquier momenta. Si
necesita ayuda para ello, consulte 10s libros de Ra-Ma sobre Windows 95/98, en 10s
que encontrara cumplida informaci6n. En cualquier case, siempre podra ejecutarlo
desde el men6 Programas, submenli Blue Squirrel WebSeeker.
Clear All. Adem& puede fijar el ndmero mkimo de respuestas a recoger de cada
motor. cambiando 10s parsmetros de Limit number of results to. Ahora ya podria
pulsar tranquilamente ei b&n Find Now, y esperar el resultado.
Vamos a localizar informaci6n en Internet sobre el <<Libra de1 Buen Amow, escrito
por Juan Ruiz, Arcipreste de Hita, en el siglo XIV. En el cuadro de dUogo Start New
Search, introducimos la expresi6n ulibro de1 buen amorn, pulsamos el bot6n Phrase,
y seleccionamos Type of Search, FilterFind, opci6n que aunque m8s lenta, nos
permitira obtener un indice elaborado de 10s documentos recuperados. Pasamos al
diBlogo Search Engines. De todas las categotias posibles, la m8s adecuada, aunque
pueda parecer lo contrario, es la gen&ica web, ya que no hay que olvidar que estos
productos, cuando ofrecen opciones especializadas, suelen hacerlo pensando en el
usuario norteamericano. Dejamos seleccionados todos 10s motores, ya que WebSeeker
se encargara de eliminar duplicados, y pulsamos el bot6n Find Now
WebSeeker lanza las blisquedas contra todos 10s motores, mforma de1 estado de1
proceso, y comienza a recibir resultados, asi coma a procesar el contenido. Las barras
de Searching y de Indexing nos informan de1 estado del proceso de blisqueda y de1
proceso de indizaci6n de resultados. Observe que ambos corren parejos, ya que en
cuanto empieza a recibir resultados, 10s verifica y analiza su contenido. A la derecha,
Total Engines nos indica el nhmero de motores consultados, Results el niimero de
documentos obtenidos, y Filtered Pages 10s documentos cuya existencia ha sido
verificada. En el espacio inferior se informa de1 proceso mediante un listado.
Search Words
,rdsyo”vmtto lookfor:
.\ cancei 1 ‘Back /
Pulse de nuevo el botSn Next. Ahora puede decidir lo que Copernic llama Search
Scheme, y que corresponde al nfimero de respuestas que desea obtener de cada motor,
asi coma el nlimero m&ximo total. Las posibilidades ofrecidas se encuentran pulsando
el menti desplegable Search Scheme. Observe c6mo cambiando las posibilidades
cambia automiticamente el ntimero de resultados por motor (Maximun results per
engine) y el total (Total results). Si lo desea, puede activar sus opciones para todas
ORAMh c.wiTum 8: AGENTES DE BiJSQUED.4 PARA lNTERNET 187
las bhsquedas pulsando el both Defaults. Por tiltimo, ya puede pulsar el both
Search Now. Observe que en cualquier momenta puede volver a 10s diBlogos
anteriores oulsando el both Back, o bien anular el proceso pulsando Cancel.
Si pulsa sobre Details, podra seleccionar las opciones de Search scheme, vistas
anteriormente, mediante un menti desplegable. Por tiltimo, Tracking permite fijar
intervalos de revisi6n de las btisquedas cada cierto tiempo, aunque esta opci6n ~610 se
encuentra disponible en la versi6n comercial. Vuelva a Query y pulse el bot6n Search
Now. Inmediatamente, Copemic lanza una pregunta al servidor de la empress,
actualiza 10s datos de 10s motores a consultar, realira 10s cambios pertinentes, y pone
en marcha la blisqueda (el usuario puede desactivar este proceso si lo desea). Se abre
una ventana que nos informa del proceso de consulta de 10s diferentes motores, asi
coma de 10s resultados obtenidos. Al terminar, se nos pregunta si deseamos que
muestre 10s resultados. Respondemos negativamente, ya que lo haremos m&s adelante.
Query 1 Detalis 1Tracking 1
Automatedtask
None More
-1 - J
.A [ OK 1 Cancel 1
M&s potente es la opci6n Download. Mediante ksta, podra obtener una copia de 10s
documentos originales, incluyendo 10s grZcos e imzigenes, creando una base de dams
en su propio ordenador que podrB utilizar luego para explorar y analirar 10s
documentos resultantes sin necesidad de war tiempo de conexi6n. Para ello, pulse el
bot6n Download, situado en la barra de botones a la derecha de Validate. En
el cuadro de dialogo siguiente, observe que tambikn puede efectuar la validaci6n
anterior, pulsando la opci6n Remove unreachable documents, y que debe pulsar la
opci6n Download images, si desea disponer tambi& de una copia en su ordenador de
las imigenes que aparecen en 10s diferentes documentos. Pulse el b&n Download
para iniciar el proceso. Para observar su desarrollo, pulse el b&n Details en el cuadro
de diGgo. Podra ver el proceso de obtenci6n de copias de 10s documentos y de las
ikgenes contenidas en 10s mismos.
Una vez terminado el proceso, ahora puede pulsar el bot6n Browse. Copemic
pas& 10s resultados en formato de pagina web a su navegador. Observe que la pagina
resultante presenta la informacibn de manera similar al listado de1 panel inferior
derecho de Copemic 2000. Se indica el titulo, se resaltan 10s ttkminos, se indica el
motor de origen, se puede ver el Score obtenido, y debajo de cada referencia se
muestra el URL de1 documento original, asi coma el fichero situado en su propio
ordenador, en el que se encuentra el documento en cuesti6n. Si pulsa sobre el enlace
que comienza por file:///, se mostrari su copia local de1 documento. Si por alglin
motive necesita acceder al documento original, use el enlace situado encima de &te,
que comienza por http://. Coma se ha indicado anteriormente, puede war esta opcidn
para estudiar con tranquilidad 10s documentos resultantes y su contenido informative
sin necesidad de permanecer conectado de forma permanente.
Observe, por otra parte, que desde que dispone de resultados de bfisqueda, se ha
activado un ventana de diilogo en Copernic 2000, bajo el titulo Search Results, que
permite ver directamente las respuestas, de forma individual, usando el men6
desplegable, asi coma variar el orden de presentacidn, usando para ello 10s botones de
movimiento y cl men6 desplegable Sort by.
a:+--- ‘Do&Gnt: Done ii+ ii ,I)? m \a /’
Figura 8.43. La pagina de respuestas en form& HTML, con la ventana Search Results
Como la carencia de calcio esta muy relacionada con esta enfermedad, podra
comprobar c6mo han sido eliminados gran parte de 10s resultados, para cumplir con la
condici6n planteada para afinar la b6squeda. Este ejemplo, que en condiciones
normales no se aplicaria, sirve para demostrar el potential de afinamiento de 10s
resultados ofrecido por Copernic 2000.
8.7. MATAHARI V. 2.01
Groups
Para empezar, observe que ahora se muestran activos todos 10s botones de la barra,
a excepci6n de Stop. En el Area inferior de presentaci6n de resultados, se muestra el
listado de documentos recuperados, indicando en cada linea, y por este orden, si ya
han sido vistas por el usuario en la columna Status (icono de sobre cerrado
amarillo/sobre abierto Verde), en Score la pertinencia al tema buscado (de 100 a 0;
pulse sobre Score hasta que el primer documento mostrado tenga la puntuaci6n m8s
alta), en Rank si han sido reordenados 10s resultados en virtud de alglin criteria nuevo
(se verB seguidamente), en Title se muestra el titulo de1 documento, en URL la
direcci6n de1 documento original, y en Size su tamafio. Si pulsa una vez sobre
cualquiera de las cabeceras comprobars c&no cambia el orden de presentaci6n de
resultados.
cuadro. Se muestra la leyenda Show pages by highlighted terms. Pulse sobre il.
Observe que la lista de resultados situada en el cuadro de la derecha cambia,
mostrando ~610 10s documentos que contienen el ttkmino, al tiempo que el indicador
Napages modifica su contenido.
Ahora, por ejemplo, desea estudiar 10s tkrninos que contiene la primera pigina de1
listado. Pulse sobre ella para seleccionarla, y ahora pulse sobre el b&n situado a la
derecha de1 usado anteriormente, que despliega la leyenda Show terms for highlighted
pages. Observe c6mo cambia el contenido de1 cuadro de la izquierda, mostrando 10s
t&minos incluidos en la pAgina en cuesti6n, al tiempo que v&a tambit% el indicador
Naterms. Como ha ido trabajando con estos cuadros, se han ido limitando las
opciones. Para volver a ver el listado de todos 10s tkminos, asi coma el listado de
todas 10s documentos, pulse sobre 10s botones situados a la derecha de 10s ya usados, y
que mostraran las leyendas Re-set pages listing to complete set y Re-set terms
listing to complete set. En cualquier case, debe observar c6mo tambikn puede
visualirar cualquier documento desde esta ventana, usando indistintamente 10s botones
Viewer o Browser.
La pestaiia Query and Engines da paso a un diGgo en el que puede visualizar 10s
resultados obtenidos de cada uno de 10s motores. Para ello, ~610 tiene que observar el
cuadro situado a la izquierda de la ventana, y marcar o desmarcar la casilla de
veriticaci6n existente a la izquierda de cada motor, para que 10s documentos obtenidos
de &te se muestren o no en el listado situado en el cuadro de la derecha. Observe que
conforme usa esta opci6n, el indicador No.pages v&a el ntimero ofrecido. Por
ejemplo, seleccione ~610 10s resultados ofrecidos por Google. Al igual que en la
ventana anterior, de cada uno de ellos se muestra el indice AverageScore de
pertinencia.
Tambikn debe probar la opci6n Populate with HTML, situada en el menfi Search.
Dando a MataHari un document0 HTML local, es capaz de r&rear 10s enlaces (links)
contenidos en la misma, incluyendo aquellos que supongan una conexi6n a otra pagina
web en algiin lugar de Internet, asi coma crear una base de datos local con todos 410s.
Es ideal para construir bases de datos de documentos tomando coma punto de partida
directories y listados largos de enlaces tem&ticos. Por tiltimo, las ya cl&icas opciones
de configuraci6n se encuentran en el menli Options, opci6n Global Settings. Los
cuadros de dihlogo que aparecen permiten establecer filtros de aceptaci6n de
resultados, usando dominios de primer y Segundo nivel, en Site Filters. Tambien se
puede filtrar usando coma criteria 10s tamafios minimos y mziximos de la pigina, asi
coma la fecha de hltima actualizaci6n, en Page/Date Limit. Search Limits se usa para
limitar el tiempo total de descarga de pigina, el tamafio mBximo total, el nlimero de
respuestas por motor y el ntimero de reintento de cone&in a 10s motores de bfisqueda.
Connected establece el tiempo de espera de respuesta de la pigina, el tipo de
conexi6n (red o telefbnica) y la definici6n de1 proxy, si existe en su red. Para terminar,
Application fija el directorio en el que se almacenan 10s ficheros, asi coma la
ejecuci6n exacta de las expresiones booleanas y el nlimero mAxima de t&minos a
utilizar cuando se emplea el operador Near.
8.8. BOOKWHERE 2000 3.2.1
BookWhere 2000 es un agente bastante diferente a 10s que hemos estado revisando.
En primer lugar, no consulta motores de blisqueda en Internet: consulta bases de datos
de cat&logos de bibliotecas. Esto significa que cuando el usuario plantea una consulta,
debe pensar que ahora el agente si estB buscando una base de dates, que esa base de
datos tiene una estructura de campos, y que 10s documentos resultantes de una
consulta corresponden a registros de base de datos que representan a libros o a otros
material.% que pueden encontrarse en una biblioteca (no olvide que cada vez en mayor
medida las bibliotecas se convierten en mediatecas, lo cual quiere decir que puede
recuperar tambikn registros correspondientes a videos, CD-ROM, grabaciones
musicales, etc.). Las bibliotecas ofrecen el catilogo de sus fondos median@ lo que se
ha dado en llamar OPAC (Online Public Access Catalog, 6 Cat&logo Ptiblico de
Acceso en Linea). Para bien o para mal, no todos 10s sistemas de automatizaci6n de
bibliotecas, y sus correspondientes OPACs, son iguales, ya que existen en el mercado
diferentes productos. Coma puede imaginar, un agente coma BookWhere es capaz de
realizar consultas simult&neas a numerosos cat&logos, filtrando y presentando 10s
registros bibliograficos al usuario. Este tipo de agentes es de especial inter&s para
investigadores, universitarios y especialistas en informacibn y documentaci6n. entre
10s que cabe incluir a 10s bibliotecarios.
problemas que detinir director&, etc. Si estB trabajando en una red local, debera
preguntar al t&nico sobre la existencia en la misma de on servidor proxy, ya que
BookWhere necesita configurar este par&metro de forma particular. De otra forma, no
ser6 capaz de conectar con 10s servidores y ejecutar las consultas.
La interfaz que ofrece BookWhere es sencilla. Una vez puesra en marcha, aparece
una ventana que le pide que seleccione las bases de dates a utilizar. Para evitar
complicaciones en este momenta, pulse el bot6n Cancel. Observe ahora la interfaz de1
programa. En la parte superior de la ventana, aparece el menti de opciones, y una barra
de botones que ofrece acceso direct0 a las principales funciones. Juste debajo de &a,
y tras el icono de on globe terrAqueo, aparece una linea de estado que nos informara de
la consulta ejecutada. Inmediatamente debajo, la ventana de trabajo se divide en tres
paneles diferentes (cuya presentaci6n puede variarse, coma vercmos m8s adelante). El
superior mostrari el autor, titulo y fecha de publicaci6n de 10s registros de libros
recuperados. El panel inferior izquierdo nos darA un listado indicando 10s resultados
obtenidos en cada cat&logo consultado (bajo el indicador Host), asi coma 10s
descriptores que aparecen en 10s registros recuperados (bajo el indicador Subject
Heading). Tenga que cuenta que 10s descriptores actlian coma palabras clave que
reflejan el contenido informative de un documento, luego le serBn de suma utilidad
0 KA-MA CAPiTULO 8: ACENTES DE BilSQUEDA PAR.4 NERNET 205
problemas que definir directories, etc. Si estA trabajando en una red local, debera
preguntar al t6cnico sobre la existencia en la misma de un servidor proxy, ya que
BookWhere necesita configurar este par&netro de forma particular. De otra forma, no
ser& capaz de conectar con 10s servidores y ejecutar las consultas.
i., 111
La interfaz que ofrece BookWhere es sencilla. Una vez puesta en marcha, aparece
una ventana que le pide que seleccione las bases de dams a utilizar. Para evitar
complicaciones en este momenta, pulse el bot6n Cancel. Observe ahora la interfaz de1
programa. En la parte superior de la ventana, aparece el menfi de opciones, y una barra
de botones que ofrece access direct0 a las principales funciones. Justo debajo de ksta,
y tras el icono de un globe terriqueo, aparece una linea de estado que nos informari de
la consulta ejecutada. Inmediatamente debajo, la ventana de trabajo se divide en tres
paneles diferentes (cuya presentacibn puede variarse, coma veremos m6s adelante). El
superior mostmA el autor, titulo y fecha de publicaci6n de 10s registros de libros
recuperados. El panel inferior izquierdo nos dari un listado indicando 10s resultados
obtenidos en cada cat&logo consultado (bajo el indicador Host), asi coma 10s
descriptores que aparecen en 10s registros recuperados (bajo el indicador Subject
Heading). Tenga que cuenta que 10s descriptores act&m coma palabras claw que
reflejan el contenido informative de un documenta, luego le seran de suma utilidad
para replantear las bhsquedas, o en el momenta de desarrollar consultas comple-
mentarias. Por hltimo, el panel inferior derecho nos mostrara 10s datos correspon-
dientes a 10s registros individuales cuando seleccionemos uno de ellos en el tiea
superior.
Bastaria con pulsar el bot6n OK, y tendriamos completado el primer paso. Antes,
sin embargo, serB interesante que se observen las opciones que le ofrece el dialog0
Power. En efecto, el use de este diilogo, aunque parece similar al anterior, nos
permite usar expresiones booleanas en las consultas, usando 10s cl&icos operadores,
mediante un cuadro de dialog0 Search Field, en el que introducir las expresiones.
Observe, ademis, que este diilogo incorpora un bot6n Extra Attributes..., el cual
ofrece un nuevo diBlogo que permite definir con m& precisi6n la expresi6n de
0 R&MA cApiruL0 8:AGENTES DEBirSQUEDA PAR.4 INTERNET 207
consulta, mediante par&netros coma Relation (igual, mayor o igual.. .), Truncation
(tipo de truncamiento), Structure (si se trata de una fecha, un ario, on ntimero de
clasificaci6n.. .), Position (lugar de aparici6n de la expresi6n en el campo de que se
&ate), y Completeness (si la expresi6n corresponde a todo el contenido de1 campo o a
parte de 61). Pulse Cancel hasta volver a Power. Observe que en la parte inferior del
diBlogo se muestra la expresidn Author is <<ubieto arteta,, (no se preocupe por
maylisculas y / o mintisculas, mejor todo e n &tas, y y a s e encargxa d e todo
BookWhere). Pulse ahora el bot6n OK.
Ahora debe completar el Segundo paso. Para ello, menti Actions, opciSn Choose
Databases... o bien pulse el bot6n situado inmediatamente a la derecha de1 anterior,
con el icono de un ordenador conectado a una red. Se muestra el diBlogo de selecci6n
de catSdogos donde buscar. El primer dialogo indica que existe una preseleccibn
Favourites (favorites, seis seleccionados por 10s creadores del producto), y el
conjunto de todos 10s disponibles, en All Databases. Observe que pulsando sobre la
cruz de la irquierda se despliegan o se recogen 10s servidores y bases de datos
disponibles. Observe que, coma le indica la parte inferior de1 d%logo, hay m8s
servidores (Host) que bases de datos (Databases). Como puede imaginar, esto se debe
a que en un mismo servidor pueden estar accesibles varias bases de dates. Hemos
desplegado en la figura siguiente AMICUS para que observe la diferencia entre el
icono de1 servidor y las bases de dates que contiene, y c6mo muchos de ellos muestran
men& de ayuda emergentes sobre so localizaci6n y contenidos. Para seleccionar 10s
que le interesen, basta con marcar sobre el cuadro de selecci6n situado a la izquierda
de cada uno de ellos, pudiendo seleccionar todo on servidor, o bien bases de datos
especificas.
Figura 8.56. Representaci6n de servidores y bases de dates disponibles
im m. p,eu ii IWi
Revisemos primer0 la barra de men6. File, coma puede imaginar, nos da acceso a
las opciones necesarias para abrir (Load), unir (Merge) y guardar (Save) estructuras
de servidores web, ya existentes en nuestro ordenador (es decir, que previamente
hemos realizado el proceso de exploracSn), y la muy necesaria orden Exit. Debemos
insistir en que este menfi tiene sentido ~610 cuando ya hemos explorado alguna
estructura. El Segundo men6, Edit, in&ye las opciones de Copy y Paste, y las
necesarias para seleccionar o eliminar la selecci6n de ficheros especificos, con vistas a
efectuar una descarga (download) de 10s mismos. El menli Option incluye funciones
relacionadas con la exploraci6n y la descarga de ficheros, que seran explicadas m8s
adelante, y que pueden activarse directamente desde aqui. Settings se utiliza para fijar
una serie de par&netros para la explorac%n, y que tambikn se explicaran m&s adelante.
Por tiltimo, Help retine la ayuda y el manual de la aplicaci6n.
Specs es el diilogo usado para establecer 10s tipos de ficheros a explorar, asi coma
10s limites de tamaiio de 10s mismos. En principio, aparece marcada la opci6n Scan all
filetypes, lo que supone que se explorar&n todos 10s ficheros. Si desea restringir a
ciertos tipos, coma HTML o JPG, desmarque la opcihn, e introduzca en el campo las
terminaciones de ficheros, separadas por punto y coma. Las opciones File sizes sirve
para fijar una tamaiio maxima y minima de ficheros a explorar, y puede ser 6ti1, por
ejemplo, cuando se desee excluir ficheros graficos de gran tamafio.
Pam navegar fuera de lima, lo finico que time que hater ahora es abrir su Netscape
o Explorer, ir al directorio en el que ha almacenado 10s ficheros, y buscar el indice
(normalmente index.htm o indexhtml). Tambikn p u e d e h a c e r l o activando
BlackWidow (with browser) desde el menti de Windows 95/98, y usando la opci6n
Off-line Browser de1 menh File, tras abrir el fichero de estructura. Funciona ripido y
bien. Con BlackWidow puede unir estfucturas de web, o partes de ellas, seglin sus
intereses, desarrollar descargas m8s selectivas, fijar filtros... pero ya lo dejamos a su
propia investigacibn.
BIBLIOGRAFiA
CHEONG, F. C., Internet Agentes: spiders, wanderers, brokers and hots, New Riders.
1996.
CODINA, L., <<C&no descubrir informaci6n en Internet y c&no conseguir que nos
descubran a nosotrow, Net ConexGn, n.O 13, 1996, pp. 52-67.
CORT!%, U. et al., *Agentes en la red>>, Novdtica, n.’ 124, 1996, pp. 50-53
EITO BRUN, R., xUna nueva forma de recuperar informacibn: 10s robots personales~,
Information World en Espuiiol, n.” 46, 1996, pp. 15.19.
GILSTER, P., Finding It on the Internet. The Internet’s Navigator Guide to Search
Tools and Techniques, Nueva York, John Wiley, 1996.
GOULD, C., Searching Smart on the World Wide Web: Tools and Techniques for
Getting Quality Results, Library Solutions, 1998.
HOCK, R. E., The Extreme Searcher’s Guide to Web Search Engmes, Medford,
CyberAge Books, 1999.
KORFHAGE, R. R., Information Storage and Retrieval, Nueva York, John Wiley,
1997.
-: <<Searching the World Wide Web n, Science, n.’ 280, 1998, pp. 98-100.
0 W-MA mBLtooR.4Fi.4 223
EITO BRUN, R., <sUna nueva forma de recuperar informaci6n: 10s robots personales~>,
Information World en Espmiol, n.’ 46, 1996, pp. 15-19.
GILSTER, P., Finding It on the Internet. The Internet’s Navigator Guide to Search
Tools and Techniques, Nueva York, John Wiley, 1996.
GOULD, C., Searching Smart on the World Wide Web: Tools and Techniques for
Getting Quality Results, Library Solutions, 1998.
HOCK, R. E., The Extreme Searcher’s Guide to Web Search Engmes, Medford,
CyberAge Books, 1999.
KORPHAGE, R. R., Information Storage and Retrieval, Nueva York, John Wiley,
1997.
-: (<Searching the World Wide Web n, Science, n.’ 280, 1998, pp. 98-100
0 RA~MA smuoGaaFiA 225
LOPEZ ALONSO, M.A. y MARES MARiN, J., <<La organizaci6n de1 conocimiento
contenido en la informacid” hipertextual de Internet>>, 6”“. Jornndas Espafiolas de
Documentaci6n Automntizada, Valencia, 1998, pp. 489-493.
MEADOW, C. T., Text Information Retrieval Systems, San Diego, Academic Press,
1992.
-: <<Measuring the size of Internet databases>, Database, n.O 20, 5, 1997, pp. 69.
72.
-: <<Searching the World Wide Web: Lycos, Webcrawler and more>>. Online. n.’
19, 4, 1995, pp. 48-53.