Está en la página 1de 245

Recuperacibn

de la Informacibn
en Internet
Jesk Tramullas Saz
Maria Dolores Olvera Lobo
A Miriam, para quien cada respuesta es una nueva pregunta.

A mis padres.
AUTORES

Jestis Tramullas Saz es profesor titular de DocumentacMn Automatizada en la


Universidad de Zaragoza, ha publicado varies libros y m&s de 40 trabajos sobre
tecnologias en el tratamiento y recuperaci6n de informaci6n y documentaci6n. Master
IDIYCESEM en Direcci6n InformBtica, y socio de la Asociaci6n de Tkcnicos de
Inform&tica (ATI) y de Association for Computer Machinery (ACM). Actualmente
investiga en m&odos y tkcnicas de diseiio y produccihn de informacibn digital,
especialmente para la web. Su direcci6n web se encuentran en: http://tramullas.com y
http://docunautica.com.

Maria Dolores Olvera Lobo es profesora de1 Departamento de Biblioteconomfa y


Documentaci6n de la Universidad de Granada, imparte docencia en la Facultad de
Traduccidn e Interpretacibn y en la de Documentaci6n. Coautora de1 libro <<Diez afios
de tesis doctorales de la Universidad de Granada: 1980/81-1989/90x Investiga en las
tieas de la recuperaci6n de informacidn, herramientas de bfisqueda en Internet y
documentaci6n aplicada a la Traducci6n. Su tesis doctoral se titula ccEvaluaci6n de la
recuperacibn de informacidn en Internet: un modelo experimental,).
~NDICE

Guia d e lectura .._.. ,... ,_. .___. ._. .___. .__. ._. xv
Introducckh XVII

CAPiTULO 1. LA INFORMACI6N EN INTERNET: ESTRUCTURA


Y CONTENIDO ........................................................................................ 1

1.1. Informaci6n y documentos en internet.. .................................................... 1


1.2. Las pAginas web coma documentos electr6nicos ...................................... 3
1.3. Las p&ginas web coma documentos hipertextuales.. ................................. 5
1.4. El navegador coma visualizador hipermedia de1 web.. ............................. 7
1.5. La variabilidad de la informacibn en la web ............................................. 10
1.6. La representacidn de1 contenido informative ............................................ 11
1.7. El problema de1 desbordamiento cognitive.. ............................................. 12
1.8. Los errores basicos en la recuperacidn de informacibn en Internet ........... 13

CAPiTULO 2. FUNDAMENTOS DE RECUPERACI6N


DE INFORMACI6N ................................................................................. 15

2.1, Concept0 de recuperaci6n de informaci6n.. .............................................. 15


2.2. Los problemas prkticos en la recuperaci6n de informaci6n .................... 17
2.2.1. Recuperaci6n de datos frente a recuperaci6n de informaci6n ......... 17
2.2.2. El problema de 10s tres lenguajes.. .................................................. 18
2.3. Tratamiento de 10s documentos textuales ................................................. 19
2.3.1. La’ tknica de1 fichero inverse ......................................................... 19
:

X RECUPERACI6N DE LA INFORMACIdN EN LNTERNET ORA~MA

2.4. El proceso genkico de recuperacidn de informaci6n ............................... 22


2.5. Las estrategias de interrogaci6n ................................................................ 24
2.5.1. Tipos de estrategia .......................................................................... 24
2.6. Lenguajes de interrogaci6n y operadores .................................................. 25
2.6.1. Operadores 16gicos o booleanos ..................................................... 27
2.6.2. Operadores posicionales ................................................................. 27
2.6.3. Operadores de tmncamiento y de limitekomparaci6n.. .................. 28
2.7. La recuperaci6n por exploraci6n en entomos hipertextuales .................... 29
2.8. Las interfaces grificas para visualizaci6n de informacibn ........................ 30
2.9. AnAlisis y revisi6n de resultados ............................................................... 31

CAPiTULO3. LA RECUPERACI6N DE INFORMACI6N


E N INTERNET. ......................................................................................... 33

3.1. La web coma espacio hipermedia y textual .............................................. 33


3.2. Enfoques para la recuperacibn de informacibn en Internet ....................... 34
3.2.1. Principios de imprecisi6n y de fertilidad ........................................ 35
3.2.2. La ausencia de intermediaries.. ....................................................... 35
3.2.3. Los enfoques de creaci6n de recursos de inform&% .................... 36
3.2.4. Los enfoques seglin la herramienta de recuperaci6n.. ..................... 36
3.3. Limitaciones en la recuperaci6n de informacibn ...................................... 38
3.4. El proceso de recuperaci6n de informaci6n en Internet ............................ 39
3.4.1. Planteamiento de1 tema. Nivel de conocimientos ........................... 39
3.4.2. Identificacidn de 10s tipos de informaci6n ...................................... 40
3.4.3. Selecci6n de 10s recursos de informack y de las herramientas
de consulta.. .................................................................................... 41
3.4.4. Transformacidn entre lenguajes ...................................................... 41
3.4.5. Formulaci6n de la ecuaci6n. Ejecuci6n. Recepci6n de respuestas 41
3.4.6. Antiisis de listado de respuestas. Replanteamiento ........................ 43
3.4.7. Preselecci6n de respuestas pertinentes. Exploraci6n
de 10s documentos originales.. ........................................................ 44
3.4.8. Replanteamiento de estrategias.. ..................................................... 45
3.4.9. Obtenci6n de documentos originales. Marcas de lectura y copias 46
3.5. Consejos en busca de1 Cxito ...................................................................... 47
3.6. Futures desarrollos de la btisqueda de informacibn en Internet.. .............. 48
3.7. Tutoriales sobre recuperaci6n de informacibn en la World Wide Web.. .. 49

CAPiTULO4. LOS DIRECTORIOS DE RECURSOS


DE INFORMACI~N.. ............................................................................... 53

4.1. ~Qut! es un directorio? .............................................................................. 53


4.2. Consulta de directories: motor interno y navegaci6n por categorias ........ 55
4.3. Directories generalistas y especializados .................................................. 57
:

0 RA-MA iNDICE XI

4.4. P@cipales director&). ............................................................................. 51


-7 4.4.1. YahOo! .................................................................................... 51
4.4.1.1. Origen y descripci6n de Yahoo! ........................................ 51
4.4.1.2. Funcionamiento de Yahoo!. ............................................... 60
4.4.1.3. C6mo buscar media&Yahoo! ...................................... 61
4.4.1.4. Buscar en Yahoo! Espafia.. ................................................ 65
4.4.2. LookSmart .............................................................................. 68
4.4.2.1. Origen y descripcibn de LookSmart .................................. 68
4.4.2.2. Funcionamiento de LookSmart.. ................................ 70
4.4.2.3. C6mo buscar mediante LookSmart.. .................................. 70

CAPiTULO 5. LOS MOTORES DE BtiSQUEDA PARA INTERNET .... 73

5.1. ~Quk es un motor de brisqueda?: Estructura y funcionamiento ................ 15


5.1.1. La base de datos .............................................................................. 15
5.1.2. El programa de indizaci6n ............................................................. 78
5.1.3. El robot de btisqueda: el protocolo de exclusi6n de robots.. ........... 19
5.1.4. Interfaces de recuperacidn .............................................................. 83
5.2. Principales caractetisticas de 10s buscadores web ..................................... 86
5.3. Analisis de 10s resultados.. ........................................................................ 87
5.4. ValoraGode las prestaciones de 10s buscadores ..................................... 91
5.5. Los metabuscadores y colecciones de buscadores .................................... 98

CAPiTULO 6. PRINCIPALES MOTORES DE BirSQUEDA


EN INTERNET .................................................................................. IO1

6.1. Altavista.. .......................................................................................... 101


6.1 .l. Origen de Altavista ......................................................................... 101
6.1.2. Descripci6n de Altavista ................................................................. 102
6.1.3. Funcionamiento de Altavista .......................................................... 104
6.1.4. Comentarios sobre Altavista.. ......................................................... 105
6.1.5. Una biisqueda con Altavista ........................................................... 105
6.2. Excite ............................ . ........................................................................... 111
6.2.1. Origen de Excite ..................................................................... 111
6.2.2. Descripci6n de Excite ............................................................... 111
6.2.3. Funcionamiento de Excite .............................................................. 114
6.2.4. Comentarios sobre Excite ............................................................... 114
6.3. Hotbot .............................................................................................. 115
6.3.1. Origen y descripci6n de Hotbot .............................................. 115
6.3.2. Funcionamiento de Hotbot .............................................................. 118
6.3.3. Comenttios sobre Hotbot .............................................................. 119
6.4. InfoseeWgo.com ................................................................................ 119
6.4.1. Origen y descripci6n de InfoseeWgoxom ................................ 119
--

XII RECUPERAClbN DE LA INFORMAC16N EN lNTERNET ORA~MA

6.4.2. Funcionamiento de go.com ....................................................... 120


6.4.2. Comentaxios sobre Infoseek ............................................................ 124
6.5. Lycos.. ............................................................................................. 124
6.5.1. Origen y descripci6n de Lycos ....................................................... 124
6.5.2. Funcionamiento de Lycos.. ............................................................. 125
6.5.3. Comentarios sobre Lycos.. .............................................................. 129
=-/ 6.6. Northern Ligl$......................................................................................... 130
616;f~Gi de Northern Light ............................................................... 130
6.6.2. Descripci6n y funcionamiento de Northern Light .......................... 130
6.6.3. Comentarios sobre Northern Light ................................................. 134
6.7. Utilizaci6n de 10s metabuscadores ............................................................ 134
6.8. Principales metabuscadores.. .............................................................. 138
-, 6.8.1. MetaCrawler.. ................................................................................. 138
6.8.2. Inference Find ................................................................................. 139
-, 6.8.3. Dogpile ........................................................................................... 140

CAPiTULO 7. LOS AGENTES INTELIGENTES ..................................... 143

7.1. La idea de1 agente de software. .................................................................. 144


7.2. Caractedsticas de un agente o robot de software.. ..................................... 145
7.3. Agentes de software en Internet ................................................................. 141
7.4. Los searchbots, agentes de recuperacibn de informaci6n en Internet ........ 148
7.5. Funciones tkcnicas de un searchbot ........................................................... 149
7.6. El funcionamiento de un searchbot ........................................................... 151
7.7. Los lenguajes de 10s agentes. KIF y KQML .............................................. 153
7.8. Problemas planteados por 10s agentes.. ...................................................... 154

CAPiTULO 8. AGENTES DE BtJSQUEDA PARA INTERNET .............. 155

8.1. QueryN Metasearch 2.2 ............................................................................ 155


X.1.1. La interfaz de usuario de QueryN MetaSearch.. ............................. 155
8.1.2. Prestaciones de QueryN MetaSearch.. ............................................ 156
8.1.3. Desarrollo de una blisqueda con QueryN MetaSearch.. .................. 156
8.1.4. Configuraci6n de QueryN MetaSearch ........................................... 158
8.2. Hurricane WebSearch 1.30 ....................................................................... 160
8.2.1. La interfaz de usuario de Hurricane WebSearch ............................. 160
8.2.2. Una btisqueda con Hurricane WebSearch.. ..................................... 161
8.3. WebFerret 3.02 ......................................................................................... 163
I 8.3.1. La interfaz de usuario de WebFerret ............................................... 163
8.3.2. Prestaciones de WebFerret.. ............................................................ 164
8.3.3. El proceso de btisqueda en WebFerret.. .......................................... 165
8.3.4. Opciones de configuraci6n de WebFerret. ...................................... 166
8.4. BullsEye 2.5 .............................................................................................. 167
( 8.4.1. La intetfaz de usuario de BullsEye ................................................. 168
i 8.4.2. Un proceso de blisqueda con BullsEye ........................................... 173
/) 8.4.3. Opciones de configuraci6n de BullsEye.. ....................................... 175
8.5. WebSeeker 98 3.4.0.3 ............................................................................... 176
8, 8.5.1. La intetfaz de usuario de WebSeeker ............................................. 176
\ 8.5.2. Un proceso de blisqueda con WebSeeker. ...................................... 179
8.5.3. Configuraci6n de WebSeeker ......................................................... 183
8.6. Copemic 2000 4.55 ................................................................................... 184
8.6.1. La interfaz de usuario de Copemic 2000 ........................................ 184
8.6.2. Un proceso de btisqueda con Copernic 2000.. ................................ 188
8.6.3. Otras prestaciones y posibilidades de Copemic 2000 ..................... 193
8.7. MataHari v. 2.01 ....................................................................................... 195
’ 8.7.1. La interfaz de MataHari.. ................................................................ 195
8.7.2. Una btisqueda con MataHari ........................................................... 196
8.7.3. El anfdisis de resultados con MataHari ........................................... 199
8.7.4. Otras opciones de MataHari ........................................................... 202
8.8. BookWhere 2000 3.2.1 ............................................................................. 204
8.8.1, La interfaz de BookWhere ..................................................... 204
8.8.2. Proceso de consulta de bases de datos ............................................ 206
8.8.3. Otras opciones de BookWhere ....................................................... 210
8.9. BlackWidow 4.07 ..................................................................................... 211
:, 8.9.1, ObtencMn, instalaci6n y puesta en marcha de BlackWidow.. ........ 212
%,’8.9.2. Interfaz de usuario de BlackWidow ................................................ 213
8.9.3. Opciones de exploraci6n con BlackWidow.. .................................. 214
8.9.4. La exploracibn con BlackWidow .................................................... 216
8.9.5. La descarga con BlackWidow ........................................................ 218

BIBLIOGRAFiA .................................................................................... 221

iNDICE ALFABkTICO ........................................................................ 229


GUiA DE LECTURA

CAPiTULO 1. LA INFORMACIdN EN INTERNET:


ESTRUCTURA Y CONTENIDO
El primer capitulo de1 libro analiza las caractetisticas propias y particularidades de
10s documentos que, con el nombre de pziginas web, puede encontrar el usuario de la
World Wide Web. Se detalla so estructura hipermedia, y la implicaciones que
conlleva, abordando las consecuencias desde el punto de vista informativo-
documental, asi coma 10s problemas para el usuario.

CAPITULO 2. FU,NDAMENTOS DE RECUPERACIdN DE


INFORMACION
Se exponen 10s fundamentos tedricos de la recuperaci6n de la informaci6n. asi
coma 10s principales problemas a que t%ta debe hater frente. Analiza las tkcnicas para
procesar y representar documentos coo gran cantidad de informaci6n textual poco
estructurada. Se expone el proceso genkrico de recuperaci6n de informac%n, asi coma
las estrategias bksicas, y 10s principios de formulacidn de ecuaciones y utilizaci6n de
operadores.

CAPITULO 3. LA RECUPERACIdN DE INFORMACI6N EN


INTERNET
El tercer capitulo enfoca directamente la teoria de1 capitulo anterior en el contexto
de1 World Wide Web. Explica 10s diferentes enfoques existentes en la recuperaci6n de
informaci6n en Internet, asi coma las limitaciones existentes. Propone on esquema de
proceso de recuperaci6n y btisqueda de informacidn en la web, y ofrece una
recopilaci6n de tutoriales sobre el particular.
XVI RECUPERACI6N DE LA INFORMACldN EN NTERNET ORA~MA

CAPiTULO 4. LOS DIRECTORIOS DE RECURSOS DE


INFORMACIdN
Presenta la historia, ptincipios y organizacidn de 10s directories de recursos de
informacibn existentes en la web. Explica las t6cnicas a utilizar para aprovechar estos
recursos, y revisa detenidamente las prestaciones y posibilidades que ofrecen Yahoo!
y LookSmart.

CA;;;;‘;+LOS MOTORES DE BtiSQUEDA PARA

Este capitulo explica detalladamente la configuracidn, componentes y funcio-


namiento de 10s motores de btisqueda en Internet y la World Wide Web. Analiza sus
principales prestaciones y caracterfsticas. y propone un modelo de valoraci6n de
resultados y de prestaciones de 10s motores. Para finalizar, ofrece una descripci6n de
10s sistemas metabuscadores.

CAPITULO 6. PRINCIPALES MOTORES DE BirSQUEDA EN


INTERNET

Se describen y revisan 10s principales motores de btisqueda existentes en Internet,


explicando sus caracteristicas y posibilidades de interrogacidn. Los sistemas
estudiados son AltaVista, Excite, HotBot, Infoseek/go.com, Lycos y Northern Light.
Se incluyen adem& 10s principales metabuscadores.

CAPITULO 7. LOS AGENTES INTELIGENTES


Los agentes inteligentes son el liltimo desarrollo para la b6squeda y recuperaci6n
de informacibn, de todo tipo, en Internet. Se explican y analizan la definicibn,
caracteristicas, prestaciones y modo de funcionamiento de estas aplicaciones.
Introduce brevemente 10s lenguajes de comunicaci6n entre agentes, y se exponen 10s
problemas que plantea su utiliraci6n.

CAPiTULO 8. AGENTES DE BirSQUEDA PARA INTERNET


El liltimo capitulo describe y detalla el funcionamiento de un conjunto de agentes
para Internet, seleccionados coma 10s de m8s use y prestaciones. Se estudian QueryN
MetaSearch, H u r r i c a n e WebSearch, WebFerret, BullsEye, WebSeeker, Copernic,
MataHti,BookWhere y BlackWidow.

BIBLIOGRAFiA
El texto se acompafia de una bibliograffa que rehne 10s trabajos citados a lo large
de1 mismo, asi coma un conjunto de lecturas seleccionadas sobre 10s diferentes temas
y aspectos cubiertos en este libro.
INTRODUCCIdN

aTronos y domimos 4ijo el Finland& cripticamente-. Si, allihay


cosas. Fantasmas, votes. ~Por qu6 no? En el mar habia sirenas,
toda esa historia, y nosotros teniamos un mar de silicbn,
ientiendes? Claro, no era m8s que una alucinacidn hecha a la
medida que todos estuvimos de acuerdo en tener: el ciberespacio;
pero cualquiera que conecte ahora, tiene que saber que es un
universe entero. Y cada aiio hay mL cosas ahi dentro, es coma
si...x

(William Gibson, Conde Cero)

A mediados de la dkcada de 1990, el objet0 principal de 10s diferentes libros y


articulos sobre Internet eran 10s protocolos, las aplicaciones cliente, 10s navegadores,
10s primeros servidores y las primeras versiones de HTML. A caballo entre 10s adios
2000 y 2001, 10s mismos temas, ya asimilados y conocidos por 10s usuarios de
Internet, se ven acompafiados de trabajos cada vez m&s especializados, sobre 10s
lenguajes Java, Python, Tcl/Tk o PHP, el desarrollo de1 DHTML y de1 potentisimo
XML, el comercio electr6nico y sus variantes, la gesti6n de1 conocimiento en la World
Wide Web, las llamadas intranets, 10s agentes inteligentes y las ontologias. _. el que no
tienen una direcci6n de correo electujnico, es porque no quiere. Ya lo escribi6
Mcluhan, xcuando la tecnologia amplia uno de nuestros sentidos, se produce una
nueva traslaci6n de la cultura tan pronto coma la nueva tecnologia se interioriza,,.

Sin embargo, el navegante de Internet sigue teniendo un problema, que siempre ha


acompafiado al ser humane, independientemente de la fase tecnol6gica en la que haya
vivido. En cualquier momenta, y para cualquier acci6n o decisidn, tiene que buscar,
XWI, RECUPERACI6N DE LA lNFORMACl~N EN lNTERNET ORA~MA

localizey recuperar informaci6n que le permita desarrollx sus actividades. Internet y


la web, coma reflejo y evoluci6n de la civilizaci6n, no son ajenos a este problema, ni
tienen todas las soluciones y posibilidades. Este problema se encuentra en el origen,
aparici6n y desarrollo de 10s llamados <<portales>*, que pretenden responder a todas las
necesidades informativas (y comerciales) de1 usuario de Internet. Empelio vane y
baldio. Las necesidades de informacibn de1 ser humane pueden ser infinitas, por lo que
no es recomendable pensar que se pueden dar soluciones a todas ellas. Ni siquiera la
World Wide Web, a pesar de su universalidad y so crecimiento continuado, puede dar
respuesta alas mismas.

Esto no quiere deck que no pueda trabajarse en la teoria y en la aplicaci6n de


hermmientas que apoyen al usuario en su btisqueda de informaci6n. Nada mh false.
Las bibliotecas y 10s archives llevan hacikndolo desde hate 5.000 aiios. El desarrollo y
perfeccionamiento d e 10s mktodos automiticos d e procesamiento p o r miquina,
durante este siglo, ha creado un conjunto de conocimiento perfectamente aplicable a
Internet y a la World Wide Web. Y 10s motores y agentes de btisqueda para Internet
son la aplicaci6n de todo este corpus al nuevo context0 digital en el que se desarrolla
la llamada sociedad de la informaci6n.

El lector encontrari en este libro una exposici6n de1 corpus cientifico que rige la
recuperacidn de la informacibn, asi coma sus plasmaci6n prktica en herramientas
inform&ticas especialmente pensadas para la World Wide Web. Los motores de
btisqueda son aplicaciones especializadas de 10s sistemas informaticos de tratamiento
y recuperacibn de informacidn textual. Los directories son un intent0 de crear
clasificaciones jekquicas, mundiales, de 10s diversos campos de la actividad humana.
Los agentes inteligentes desempefian un papel similar al de1 especialista en
informaci6n y documentacZn, que realiza bhsquedas, localiza y obtiene documentos
de especial inter& para el usuario. La recuperacibn de informacibn en Internet hay que
abordarla desde una perspectiva que ponga el knfasis en el tratamiento informative y
documental de las paginas web. Los contenidos de Internet no son patrimonio de
informAticos ni de disefiadores gr%icos: son campo de trabajo para escritores, artistas.
docentes, estudiantes, periodistas y especialistas en informaci6n y documentaci6n.
CAPiTULO 1

LA INFORMACIdN EN INTERNET:
ESTRUCTURA Y CONTENIDO

El correct0 desarrollo de una proceso de blisqueda en Internet, y especialmente en


la World Wide Web, exige conocer las caracteristicas y estmctaras que subyacen a 10s
documentos objet0 de bhsqueda por nuestra parte. Resulta dificil llevar a cabo una
correcta btisqueda y valorar en todas sus dimensiones las p;iginas web descubiertas, si
no se conocen 10s principios que se ban usado en su construcci6n, y &no esos
principios influyen en el contenido y estmctura de 10s documentos. Como punto de
partida, podemos decir que el web es on sistema de informaci6n hipermedia
distribuido, que utiliza el navegador coma visualizador.

1.1. INFORMACI6N Y DOCUMENTOS EN INTERNET

La informaci6n que es visualizada por el usuario en la web adopta la forma de


paginas web. Se trata de documentos textuales, es decir, documentos cuyo
componente fundamental es el texto. La norma que rige la construcci6n de paginas
web es el HyperText Markup Language, m&s conocido coma HTML, actualmente en
su versidn 4. El HTML establece las reglas necesarias para crear paginas web, asi
coma para determinar las caracterfsticas y posici6n de 10s contenidos, Sean de1 tipo
que Sean, en las phginas. En origen, el HTML surgi6 de la mano de Tim Berners-Lee,
en aquel moment0 (comienzos de 10s 90) en el CERN de Ginebra, coma una forma de
etiquetar 10s contenidos de documentos con informacibn textual, de forma que
pudiesen ser consultados desde cualquier punto de una red informS.tica, con un simple
visualizador, independientemente de1 tipo y sistema informatico que se utilizase.
HTML era un subconjunto de1 m&s complejo SGML. El Cxito de la iniciativa, y el
2 RECUPERACIdN DE LA lNFORMACI6N EN INTERNET 0 RA~MA

potential que se intaia en la misma, hizo que en poco tiempo se extendiese a nivel
mundial, borrando de1 mapa a otros s i s t e m a s d e organizacibn y acceso a la
informaci@ coma por ejemplo Gopher. Al Cxito de1 HTML se uni6 inmediatamente
el temprano desarrollo de1 NCSA Mosaic, visualizador avanzado desarrollado por
investigadores de1 National Center for Supercomputing Applications, en la University
of Illinios at Urbana Champaign, varies de 10s wales acabaron fundando Netscape un
tiempo mh tarde. Y de ahi a la actaalidad ya conoce el acelerado desarrollo de la web
y la cruel guerra entre Netscape y Microsoft (la cual no creia en Internet, lleg6 tarde y
mal, y, coma siempre suele hater, supli6 so inferioridad tecnolbgica con so abmmador
poder de marketing).

El desxrollo de la web recomend6 la creaci6n de1 W3C (World Wide Web


Consortium), una organizaci6n international que dirigiese y ordenase so desarrollo,
estableciendo normas y recomendaciones, tanto a nivel tbnico coma de uso. En la
actualidad, y tras la aparici6n de herramientas coma Java, JavaScrip o DHTML
(Dynamic Hi%%), el W3C propone la adopci6n de XML (eXtensible Markup
Language) y de XHTML (eXtended HTML), coma lenguajes de etiquetado m&s
potentes y especializados, capaz de hater frente a las nuevas demandas de 10s
documentos para Internet.

CalidadlUtiUdad

1 CantidadNolumen

Figura 1.1. La cl&ica pir&nide de la informaciOn

La distinci6n entre datos, informacibn y conocimiento es una de las discusiones


clzisicas entre investigadores, en la que no vamos a entrx. Para nuestro trabajo, nos
bastara c o n comprender q u e l a informaci6n, e n s i , supone algtin t i p o d e
transfonnaci6n sobre la mass de datos sin analizar. Se suele aceptar que la
informaci6n es el resultado de1 proceso de datos. Y que se produce conocimiento
cuando el usuario asimila la informacibn, la contextualiza en so entorno y adquiere un
0 W-MA CAPiTULO I: LA INFORMACK% EN INTERNET: ESTRUCTURA Y CONTENIDO 3

saber (t&k o prktico) que le es de utilidad en una situaci6n dada. Mientras que es
dificil establecer una correspondencia entre conocimiento y soporte de ese
conocimiento, ya que se suele aceptar que es el ser humane; en cambio es
generalmente aceptado que 10s dates y la informacibn suelen encontrarse en on
soporte material. La uni6n entre soporte y contenido establece la existencia real de on
documento. Numerosos investigadores han analizado, desde finales de1 siglo XIX, la
teorfa y din&mica de 10s documentos y de la informacibn contenida en 10s mismos, de
tal mode que la Documentaci6n se ha convertido, por si misma, en una disciplina
cientifica. En la actualidad, una de las lineas de investigacibn m&s provechosas es
precisamente el adocumento virtual*>, en otras palabras, el document0 electr6nico y
sus problemas. Y es que el lector debe saber que, en realidad, la aproximacibn m&s
adecuada en on entomo coma la web no es la informitica, ni la de1 diseiio. el
concept0 clave es tratar la web coma on espacio informative cuyo componente
fundamental son 10s documentos electr6nicos.

1.2. LAS PAGINAS WEB COMO DOCUMENTOS


ELECTRdNICOS
El contenido de on document0 es informacibn. Esa informaci6n puede ser textual,
grafica estitica o grafica din&mica, Sonora, o combinaciones de estos tipos. Al
considerar una pagina web coma on documento, resulta evidente que las
caractetisticas tknicas de1 HTML permiten integrar todo tipo de informaciones, por lo
que, aparentemente, la pagina web se configura coma el soporte documental ideal para
10s nuevos documentos interactivos que se prevean para 10s pr6ximos aiios. Sin
embargo, una pagina web es m& compleja de lo que puede parecer a simple vista. Si
el usuario se plantea la comparaci6n con on articulo periodistico, o on reportaje de
revista, el soporte es est&tico, y llega a sus manes terminado y cerrado por alguien que
ha desarrollado ya 10s procesos de composici6n y de impresi6n. Un papel impreso, en
definitiva. Una pagina web es m6s compleja, ya que el soporte es dinimico, y es el
propio cliente el que, sin saberlo la mayoria de las veces, lleva a cabo 10s procesos de
.I
composxlon e impresibn.
Esto es posible gracias a las caracterfsticas de1 HTML. Si ya ha creado paginas
web, conocera lo que describimos a continuaci6n. EL HTML es on lenguaje de
etiquetado o de marcado (no de programacibn). Esto quiere decir que, al crear una
piginaweb, lo que hacemos es introducir informacibn textual, y marcar determinadas
tieas de esa informacibn textual coma zonas de especial tratamiento (par ejemplo: una
palabra aparece en negrita porque la hemos <(marcado>> coma negrita). Una pagina
web es, adem&, un fichero ~510 de texto*, lo coal quiere decir que las imageries no se
encuentran en la pigina web: lo que se encuentra en ellaes una etiqueta que dice <<en
este sitio coloca esta imagenu. De la misma forma, no contendra sonido, ya que lo que
tendr5 ser& una etiqueta que diga <<haz sonar este fichero,,. Para 10s aficionados a lo
interactive, pasari lo mismo con las animaciones en Flash o en otros formatos. Estas
cuestiones tienen implicaciones muy importantes para 10s procesos de b6squeda en
Internet, corn0 veremos en 10s capitulos siguientes.
4 RECUPERACI6N DE LA lNFORMACl6N EN INTERNET m R.&MA

Pam terminar de comprender la estmctura y funcionamiento de las p6ginas web,


veamos ahora el proceso de acceder a una de ellas. Cuando el usuario introduce en so
navegador una direcci6n web (el nombre correcto es URL, Universal Resource
Locator), el navegador lanza una conexidn al servidor en cuestidn, y pregunta por la
pAgina especifica (par lo general con la terminacidn .htm/.html). Si la pigina no existe
o no estA disponible, el servidor responde con on mensaje de error. Si est6 disponible,
envia una copia de1 fichero en cuesti6n al ordenador de1 usuario. Cuando el navegador
r e c i b e e l tichero, lo analiza, y comienza a presentar l a informaci6n. C o n l a
informacidn textual no tendra ning6n problema, ya que vendrh incluida en el fichero
.htmI.html. Cuando encuentra etiquetas que le indican la presencia de una imagen, o
de otro tipo de informacibn, inicia m6s conexiones, obtiene una copia de 10s ficheros
en cuestidn, procede a situarlos en la pAgina, y por 6ltimo present& &a al usuario.
Como puede apreciar, on navegador no 4raex ni nacceden realmente a pziginas web.
Lo que hate es obtener una copia de 10s originales, y crear una presentacidn en so
ordenador, de acuerdo a las instmcciones contenidas en las etiquetas de HTML que
han llegado en el fichero de texto. Por esta razdn, en ocasiones se necesitan plugins
para poder acceder a la informaci6n contenida en tipos de ficheros no previstos. Y
tambiCn puede deducir que una pagina web, tal y coma se la muestra el navegador,
tampoco existe realmente; lo que existen son las instrucciones y 10s elementos
necesarios para componerla.

El proceso permite diferenciar dosniveles en las paginas web. El primer0 de ellos


correspondetia a la informaci6n textual y de organizacibn que contiene una pagina
web, y que podriamos llamar de estructura. Seria x10 que ve>> el navegador. El
Segundo de ellos corresponden’a al nivel de presentacidn, y seria 40 que vex el
0 RA-MA CAPfTULO I: LA lNFORMAC16N EN INTERNET: ESTRUCTURA Y CONTENlDO 5

usuario. El primer nivel lo establece el creador de la pAgina. El Segundo lo crea el


navegador, y tenga en cuenta que &ta es la raz6n que explica que las p&ginas web se
vean <<diferentes* segCln el navegador que utilice. Para ir entrando en materia, debe
saber que en 10s procesos de tratamiento previos a la b6squeda y recuperaci6n de
informaci6n en Internet, se trabaja con el contenido informative existente en el primer
nivel de informaci6n textual y organizacibn. De ello puede deducir que un tftalo
contenido en un gr&ico no sera objet0 de tratamiento, ya que no es informacibn
textual. En estos mementos de exceso gr&fico en las paginas web, debe tener en cuenta
10s problemas frente a 10s que puede encontrarse si el creador de la pAgina no ha sido
cuidadoso.

1.3. LAS PAGINAS WEB COMO DOCUMENTOS


HIPERTEXTUALES
Sin menospreciar el potential de1 HTML, lo cierto es que la caracterktica que le
dota de un poder extraordinario frente a otros soportes o formatos para documentos
electrdnicos, es &I capacidad hipertextual. El ttrmino hipertexto fue acmiado por
Theodor Nelson en la dkcada de 1960, para definir un sistema de lectura y escritura no
lineal, basado en 10s procesos asociativos que tienen lugar en la mente humana. Diaz,
Catenazzi y Aedo (1996) ban descrito con detalle la historia, generaciones, principios
y componentes de 10s sistemas hipertextuales e hipermediales. El trabajo de Nelson se
apoy6 en las ideas formuladas por V. Bush es su conocido trabajo As We May Think,
publicado en 1945, y en 10s desarrollos llevados a cabo por D. Engelbart en el
Stanford Research Institute y en Xerox, tambikn la dkcada de 1960, que fueron 10s
fundamentos de las actuales interfaces graficas de usuario (y que no han sido
inventados por Microsoft, por macho que ella insista). Nelson propuso en esta kpoca
su famoso proyecto Xanadti, que pretendia la creaci6n de una gigantesca organizaci6n
mundial de1 conocimiento en un sistema inform&ico, relacionando 10s documentos,
situados en una red de ordenadores mediante enlaces o citas entre ellos.

El hipertexto es on sistema de organizaci6n y acceso a la informaci(ln basado en la


asociaci6n de documentos, que utiliza para ello un sistema informzitico, y que sigue la
mettiora de la red de elementos. El principio de asociaci6n permite que se pueda
acceder directamente desde una idea a otras intimamente relacionadas con la primera,
en virtud de diferentes criterios. Lo interesante es que es vista coma un espacio
tridimensional, que rompe la linealidad y la secuencia bidimensional de la lectora
(Rodrfguez de las Heras, 1991). Si a este esquema se aiiade la capacidad para integrar
en el mismo, junto a la informacidn textual, informacibn y documentos en otros
formatos, coma imagen o sonido, entonces nos encontramos frente a lo que se
denomina hipermedia, o m&s sencillamente, la integraci6n de hipertexto y multimedia.

Los componentes fundamentales de 10s sistemas hipermedia, desde una perspectiva


informativa y documental, son 10s nodes, 10s enlaces y 10s anclajes. El nodo es la
unidad basica de1 hipertexto, la unidad de acci6n de1 usuario, que la explora y evaltia
6 RECUPERACI6N DE LA lNFORMACl6N EN lNTERNET 0 RA-MA

en el contexto en el que se encuentra. Los diferentes autores ban establecido diferentes


tipos de nodes seglin sus caracteristicas, pero para nuestro inter& podemos identificar
un nodo con una pagina web individualizada. Para relacionar 10s nodes y crear esas
asociaciones antes mencionadas, se utilizan 10s enlaces. Los enlaces interconectan 10s
nodes, y su ejecucidn permite conmutar o saltar entre 10s nodes. El usuario tiene la
libertad de ejecutar o no 10s enlaces, segtin so inter&. La ejecuci6n de 10s enlaces es
posible gracias a la presencia de 10s anclajes. Los anclajes son 10s puntos de activaci6n
y de destino de1 enlace, y suelen diferenciarse de1 resto de la informacibn mediante
atributos de presentaci6n. Si estos componentes 10s trasladamos a una pagina web,
queda claro que el nodo corresponde con la propia pagina web; que el anclaje es el
texto o grifico resaltado en la presentacibn, cuya pulsaci6n nos llevara a otra pagina
web, y que el enlace, en realidad, es un etiqueta de HTML que no vemos directamente.
Esto es asi porque la etiqueta que define el enlace se encuentra en el primer nivel de
informaci6n y organizac%n, y adopta la forma de etiqueta <a href=nhttp:\\hla,
bla...w>. No debe olvidar, adem& que un enlace nos puede llevar a otro nodo, o a
una parte especifica de otro nodo, segtin haya establecido el creador de1 documento o
pagina web que estemos usando.

Figura 1.3. Sistema de documentos hipermedia

Las paginas web corresponden con 10s nodes, coma se ha sefialado. Entonces, hay
que plantearse cuA1 es el criteria de contenido informative que siguen 10s nodes. En el
web no existe un criteria iinico ni general que determine si una informaci6n se
organiza en tome a un nodo o a varies fuertemente relacionados. Esta decisi6n
depende de numerosos factores, especialmente de la orientacibn de1 creador de1
documento.’ Para explicarlo, tomemos en consideraci6n un reportaje o articulo
traditional de revista. Para describirlo y organizarlo, se le da un titulo y unos
subtitulos, y se dispone el contenido en una secuencia seguida de phginas. Si pasamos
0 RA~MA CAPiTULO I: LA lNFORMACI&‘l EN INTERNET: ESTRUCTURA Y CONTENIDO 7

este artfculo a la web, se presentan al usuario dos primeras opciones: crearlo coma una
tinica pagina w e b d e gran tamaiio ( u n nodo), o crear varias paginas w e b ,
correspondientes a las diferentes partes de1 articulo, cada una con so titulo particular,
para enlazarlas entre si seg6n el criteria que se considere pertinente (varies nodes).
Las implicaciones son muy diferentes, en un case y en otro, para la recuperaci6n de
informaci6n, tema que nos ocupa. Desde una perspectiva documental, podtiamos decir
que la consideracidn de si es un document0 complete, o si cada una de las partes es un
document0 individualizado, dependeria de1 context0 de utilizaci6n por parte de1
usuario. Si lo vemos desde la perspectiva tecnol6gica de la actual generacidn de
herramientas para recuperacidn de informacidn textual en Internet, cada una de las
partes individuales de1 articulo en cuesti6n ser& tratada coma si fuese un document0
independiente, cuesti6n que s&i tratada en 10s prdximos capitulos.

informacidn electrbnic

Figura 1.4. La pagina web coma documento hipertextual: nodo, anclaje y enlace

1.4. EL NAVEGADOR COMO VISUALIZADOR HIPERMEDIA


DEL WEB
La estructura hipertextual e hipermedia de la web es posible gracias a la existencia
de las herramientas software necestias para crear 10s documentos, y para explorar,
8 RECUPERACIONDELAINFORMACIONENINTERNET 0 RA~MA

navegar y visualizar 10s d o c u m e n t o s y l a s estructaras creadas. Analizar 10s


mecanismos y herramientas disponibles para la creacidn de documentos y piginas web
supera ampliamente el objetivo de este texto, por lo que no se aborda aqui. Sin
embargo, es necesario revisar las prestaciones de 10s navegadores web, y analizar las
prestaciones que ofrecen a 10s usuarios para explorar y navegar la estructura
hipermedia de1 web. Lo primer0 que hay que serialax es que, contra lo que pueda
parecer, 10s navegadores actaales ofrecen prestaciones nuis limitadas y paxiales que
las ofrecidas por 10s sistemas hipertextuales existentes en el mercado durante la
dkada de 1980. Esto es debido a que la arquitectura hipertextual de la propia web es
m6s limitada, en prestaciones, de lo que la teoria y la prktica de1 hipertexto
establecieron en la citada dkcada, como puede verse repasando 10s trabajos de
Landow, Co&in o Nielsen.

Figura 1.5. Apoyo a la exploraci6n en el navegador

Las prestaciones que ofrece la generaci6n actual de navegadores a 10s usuarios son
limitadas. En primer lugar, cumplen la misi6n de desarrollar la presentacidn visual de
10s documentos a 10s usuarios, actuando coma interfaz entre 6stos y 10s componentes
de1 documento o pagina web. En Segundo lugar, facilitan algunas prestaciones de
apoyo a la navegaci6n y a la exploracidn. Para la visualizackjn, vienen preparados
para mostrar documentos HTML, siendo posible expandir sus posibilidades mediante
la utilizacibn de plugins, o visores complementarios, para determinados tipos de
documentos. Cuando un navegador encuentra un tipo de document0 que no es capaz
de manejar, suele advertir al usuario sobre este particular, y ofrecerle la posibilidad de
obtener el plugin necesario para ello. M6s interesantes son las prestaciones de apoyo a
la navegaci6n y exploracibn. Las m8s utilizadas por 10s usuarios son 10s botones de
Back/Forward (Anterior/Siguiente) y Bookmarks (MarcadoreGavoritos). Los
botones de Back/Forward, situados en la barra de berramientas, permiten visualizar
10s documentos vistos durante la sesi6n activa, segtin la secuencia en que han sido
visitados. Basta una pulsaci6n para volver al anterior, o pasar al siguiente. La ventaja
BRA~MA CAPiTULO I: LA INFORMACI6N EN INTERNET: ESTR”CT”RA Y CONTENlDO 9

que ofrecen es que las paginas web son leidas de la cach6 o fichero intermedio propio
de1 disco duro de1 usuario, lo que evita nuevas conexiones y facilita la revisi6n de1
proceso de navegacidn seguido. El inconveniente es que no tiene memoria de sesiones
ant&ores, ya que ~610 est6 active en la sesi6n actual, y en el case de tener varias
ventanas abiertas, cada una de ellas tiene so propia historia.

La importancia de 10s Bookmarks no puede ser desdeiiada por el usutio. Los


Bookmarks acttian coma si fuesen puntos de lectura que sitlian una marca en aquellas
phginas web que resultan de especial inter& para el usuario. No guardan una copia de
la pigina en el ordenador: lo que hacen es guardar en on indice, de forma permanente,
el URL de1 documento original. La ventaja que ofrecen 10s navegadores es que
permiten organizarlos de forma jertiquica, lo que hate posible crear agrupaciones
temziticas y clasificaciones de 10s Bookmarks, asi coma eliminarlos cuando no son
necesarios. Junto a estas caracteristicas, 10s navegadores incluyen alguna opci6n en 10s
menti de1 tipo Find... o Find in Page . . . . que permiten localizar expresiones de texto
exclusivamente en la pAgina que est& siendo visualizada en ese momenta. Cada vez en
mayor medida, y dados 10s problemas que supone a 10s usuarios precisamente la
recuperacidn y acceso a la informacidn en Internet, 10s navegadores han ido
incluyendo en 10s menlis de la aplicacidn opciones de1 tipo Search in Internet... o
similar, que lanzan una cone&in directa a un motor de btisqueda gen6rico o a un
directorio, al coal formular sus preguntas. Tenga en cuenta que la elecci6n de este
motor estA mediatizada por 10s intereses de1 fabricante, y que puede no ser el m&s
adecuado para sus necesidades. Para term&x, en algunas instalaciones puede
encontrar en la barra de herramientas de1 navegador botones de aplicaciones coma
Alexa o coma AltaVista Search, que expanden las posibilidades de bhsqueda y de
exploraci6n de Internet desde el navegador. En cualquier case, 10s navegadores
todavia no ofrecen integradas prestaciones de mapas grticos, de seguimiento de
v&ones, de trayectorias o de anotaci6n que ya estaban presentes en 10s sistemas
hipertextuales cl&icos.

Para terminar este apartado, una consideraci6n sobre tipos de ficheros. Como ya se
ha seiialado, la hipermedia permite integrar diferentes tipos de informaci6n,
almacenada en diferentes formatos de fichero, en un hnico documento. El marco es el
establecido por el fichero de texto con terminaci6n .htm/.html. Cuando nos
encontremos desarrollando un proceso de btisqueda, deberemos tener siempre en
cuenta que la mayor parte de la informaci6n contenida en formatos diferentes a texto
no es tratada por 10s motores de btisqueda, lo coal provoca que la informaci6n
contenida en on fichero en format0 Acrobat o PostScript, por ejemplo, no puede ser
objet0 de btisqueda, al menos con las herramientas actuales. Y debe pensar tambiCn
que en nomerosas ocasiones la informaci6n se encuentra incluida en un grifico (par
ejemplo, mentis), tampoco puede ser objeto de tratamiento. Y si no son tratados y
ax&ados,no puede ser usados coma criterios para recuperar informaci6n.
10 RECUPERAClbN DE LA INFORMACION EN INTERNET 0 RA-MA

1.5. LA VAFUABILIDAD DE LA INFORMACI6N EN LA WEB


Los entornos hipertexhmles cerrados, con prestaciones avanzadas y posibilidades
de edicidn y anotaci6n de estructuras hipermedia, ofrecen mecanismos para controlar
la evoluci6n temporal y espacial de 10s documentos. Sin embargo, si algo caracteriza la
web es que se trata de un entomo abierto, heterogtneo y cambiante, y esas
particulmidades se reflejan en 10s documentos y paginas web. Las piginas web poseen
unas dimensiones organizativas, espaciales y temporales muy activas, de las que
carecen 10s documentos escritos o impresos, e in&so 10s documentos visuales
dinknicos (coma el video). Para bien o para mal, esa dimensi6n activa supone que no
existen limites a las vtiaciones que puede sufrir on documento, en virtud de 10s
intereses y motivaciones de so creador. A algunos lectores esta situaci6n les puede
recordar a Mircea Eliade y su <(mite de1 etemo retomou. Esta vatiabilidad repercute
directa y profundamente en la representacibn de documentos en la web, y
consecuentemente en 10s procesos de bhsqueda y recuperaci6n. Las principales
dimensiones son:

1. Variabilidad de organizacibn: En una primera versi6n de una pagina web, todo


el contenido informative puede encontrarse en un linico documento o pagina
web. Tras cierto periodo, el autor puede decidir cambiar esa estructura
organizativa, manteniendo el contenido informative, pero separhndolo en varias
paginas web con unidad de interpretacibn, y dotando a las mismas de una
navegaci6n mediante enlaces.

2. Variablidad de presentacibn: Las piginas con el nivel de presentacibn A y el


contenido B, son sustituidas por las phginas con el nivel de presentacibn C, pero
manteniendo el contenido B.

3. Variabilidad de modificaci6n: Las phginas con el contenido A son sustituidas, o


complementadas, por las paginas con el contenido A+B.

4. Variabilidad espacial: En un moment0 dada, las paginas que el autor habia


alojado en el servidor A son trasladadas, por diferentes causas, con cambio o sin
cambio de estructura, al servidor B, y desaparecen de A definitivamente.

5. Variabilidad temporal: Las p?iginas A con el contenido B son sustituidas por las
pziginas A’ (con la misma estmctura y presentacidn), pero con el contenido C.
Tambikn cabe la posibilidad de que las piginas A y el contenido B
desapxezcan totalmente de la web sin ser sustituidas o modificadas.

Como puede apreciarse, estas dimensiones no son excluyentes entre si y pueden


combinarse entre ellas. Como veremos m&s adelante, 10s actuales sistemas
informiticos (y no infomxiticos) disefiados para el tratamiento y la recuperaci6n de
informaci6n lo fueron pensando en documentos estziticos, sin variabilidad espacial,
temporal u organizativa. Esta limitaci6n supone que siempre puede aparecer una
disfunci6n entre 10s resultados obtenidos de una recuperacibn de informaci6n en un
D W-MA CAPiTULO I: LA lNFORMACl6N EN INTERNET: ESTRUCTURA Y CONTENlDO II

motor de btisqueda, por ejemplo, y la situacidn real de las phginas web en Internet.
Cuando tras la consulta de on motor, on usuario se encuentra ante el archiconocido
error 404, o el mensaje <<No se puede mostrar la pigina >>, se encuenba ante una de esas
disfunciones producidas por las dimensiones de wiabilidad.

Existe on dltimo factor a tener en cuenta al analizar la variabilidad. Se trata de


aquellas paginas que no existen coma ficheros HTML en ninglin servidor, sino que
son generadas dinzimicamente a petici6n de1 usuario. Generalmente se trata de piginas
que son creadas coma resultado de consultar bases de dates a travk de una interfaz
web. Por ejemplo, cuando consulta un motor de btisqueda, o el cat&logo de una
biblioteca, o el catalogo de productos de una tienda virtual, las paginas que recibe so
navegador con las respuestas no existen realmente en el servidor. Se trata de una
aplicaci6n de tipo CGI, que crea la pigina en ese momenta, fusionando las respuestas
obtenidas de la base de dates, con el format0 de presentacibn que tiene predefmido, y
que no guarda una copia de la misma en el servidor. Esto explica la raz6n por la coal
la misma consulta contra el mismo servidor, tras on petiodo temporal de varies dfas,
puede ofrecer perfectamente contenidos diferentes.

1.6. LA REPRESENTACIdN DEL CONTENIDO


INFORMATIVO
Cuando haya acudido a on biblioteca, archive o centro de documentaci6n habra
observado que 10s profesionales de1 sector disponen de herramientas que permiten,
siguiendo on conjunto de normas, representar el contenido informative de 10s
documentos. Por ejemplo, en las bibliotecas se suele seguir la Clasificaci6n Decimal
Universal (CDU), y en centros especializados se utilizan otras herramientas, coma
tesauros y vocabularies controlados. Si ha consultado Yahoo!, habrA observado que
las paginas web se clasifican segtin una aproximaci6n jekquica, por tieas y subAreas
temiticas. Cuando necesita acceder a la informaci6n en estos contextos, usara esta
representaci&, con varias palabras o tkminos significativos, para seleccionar unos
documentos frente a otros, y luego solicitarlos. Con toda esta tradici6n de&k, puede
resultar extrafio que no existan en el espacio informative de1 web instrumentos
similares.

En realidad, estos instmmentos existen. Son numerosos 10s intentos para dotar al
web de instrumentos de descripci6n de contenidos que faciliten, a so vez, la
recuperaci6n. La m8s conocida, por ejemplo, es el Dublin Core Mefadata Initiative
(informaci6n disponihle en http://purl.org/JX/). El Dublin Core intenta fijar unos
es&dares, aceptados por todos, para describir, usando palabras clave o descriptores,
el contenido informative de una pagina web, usando para ello las etiquetas <META>.
Junto a esta descripci6n tambikn itian la menci6n de responsabilidad intelectual de1
documento, dates sobre so ubicaci6n y versibn, etc. Sin embargo, estas iniciativas no
estan alcanzando el Cxito esperado, debido a que el nivel de descripc%n, por las
propias caracteristicas de la creaci6n y publicaci6n de paginas web, queda en el lado
12 RECUPERACKh DE LA INFORMACIdN EN lNTERNET ORA~MA

de1 responsable de las mismas. Todavia son pocos 10s usuarios que comprenden que
para posicionar sus piginas adecuadamente en el web, es tan importante la descripci6n
de contenidos, corno el contenido informative o coma el diseKo de la interfaz de
usuario.

Dentro de1 conjunto de posibilidades que ofrecen las etiquetas <META>, es


especialmente interesante la etiqueta <META KEYWORDS=*bla, bla...n>. Esta
etiqueta resulta invisible para 10s navegadores, se introduce durante la creaci6n de la
pagina web, y permite introducir entre las comillas tkminos que actlien coma palabras
clave, capaces de describir el contenido informative real de la pAgina web. Observe
que, en este contexto, la utilizaci6n de estos elementos dependera de1 inter& y la
buena voluntad de1 creador y responsable de1 documento, o de las instmcciones que
pueda haber recibido de otros responsables. Debe tener en cuenta que puede darse el
case contrario a lo que se plantea, es decir, que un creador de documentos desee pasar
lo m&s desapercibido posible, en cuyo case obviari estos elementos. Y para terminar,
considere que tambikn pueden darse cases de picaresca: si se detecta gran demanda de
una informaci6n, alguien puede optar por varier sus <META>, de forma que atraiga
gran cantidad de,visitantes a unas paginas que no ofrezcan la informacid” que desee el
usuario, sino otras de tipo y contenido muy diferente.

1.7. EL PROBLEMA DEL DESBORDAMIENTO COGNITIVO


Los problemas a lo que se enfrentan 10s usuarios de la web no se limitan a 10s
referidos a 10s documentos y a la informaci6n que contienen de una forma u oh-a. La
actividad normal de1 ser humane, en un sistema hipertextual, es la lectura asociativa.
El proceso de lectura tiene lugar en episodios sucesivos de ejecuci6n de anclaje,
enlace y exploraci6n de1 nodo de llegada. En 10s siguientes capitalos veremos que una
de las actividades que se desarrollan en el proceso de recuperacidn de informaci6n es
la exploraci6n y navegacidn de nodes relacionados con un documento considerado
importante por el usuario. Este proceso de lectura no es secuencial, coma el que se
desarrolla en el context0 de1 papel impreso. En kte, siempre se dispone de un
context0 para la lectura, en cuanto se dispone, a simple vista, de un antes y de
un despuks, de 10s puntos de referencia inmediatos a la lectura en ese momenta. En
cambio, en un sistema hipertextual esas referencias inmediatas tienden a diluirse en el
proceso asociativo.

El proceso asociativo es proclive a hater que el usuario pierda de vista su objetivo


initial,ya que la propia riqueza de opciones que se le ofrecen puede hacerle variar su
objetivo principal, en virtud de1 descubrimiento de nuevas esferas y tieas de inter&.
Las prestaciones de 10s navegadores para limitar este riesgo son, en la actualidad,
minimas. Tras varias decisiones de1 usuario, cambiando el objeto de su inter& se
produce en aquel la desorientacSn, al perder el context0 original de trabajo, fruto de1
fen6meno que se conoce coma desbordamiento cognitive.
0 RA-MA CAPiTULO 1: LA INFORMAC16N EN INTERNET: ESTRUCTURA Y CONTENlDO 13

La desorientacidn se produce cuando el usuario no comprende el context0 en el que


se sihia, y &no ha llegado a la situaci6n en la que se encuentra en ese momenta.
Suele ser producto de la ejecuci6n de enlaces de manera errAtica, que acaban llevando
al usuario, espacial e informativamente, lejos de so objetivo y de so punto de partida
original. Debemos recordar que 10s estudios psicoldgicos ban demostrado que el ser
human0 es capaz de recordar, sin problemas, listados de hasta siete elementos,
comenzado 10s errores a partir de este punto en la mayon’a de las ocasiones. Tras la
ejecucidn y revisi6n de siete o m&s anclajes (enlaces) y nodes, el usuario se ve
superado par la cantidad, volumen y relaciones recibidas durante el episodio
hipertextual, no puede mantener el nivel de concentraci6n necesario, y se produce el
desbordamiento cognitive. Ambos problemas, la desorientacidn y el desbordamiento
cognitive, estan intimamente relacionados en 10s sistemas hipertextuales. Ante esta
situacidn, que se produce en numerosas ocasiones durante 10s procesos exploratorios
d e blisqueda y recuperacidn d e informaci6n e n I n t e r n e t , ~610 cabe recomendar
prudencia, y mantener claros 10s objetivos de la b6squeda que se desarrolla en ese
momenta. U n b u e n diseiio d e l a informacidn, a nivel d e organizacidn y d e
presentacibn, de interfaz de usuario, es una garantia en estos cases, pero de nuevo esto
no depende de la capacidad de1 usuario que busca, sino de las intenciones y
habilidades de1 creador y responsable de las priginas web.

1.8. LOS ERRORES BhICOS EN LA RECUPERACI6N DE


INFORMACIdN EN INTERNET

En 1997, Pollock y Hockley publicaron en D-Lib Magazine (disponible en


httu://www.dlib.org) un conocido trabajo sobre 10s errores que cometian 10s usuarios
cuando abordaban un proceso de blisqueda en Internet. Estos autores indicaban que era
necesario un conocimiento basic0 previo de lo que contenia y podia ofrecer Internet,
coma requisite indispensable para obtener resultados satisfactorios, ya que de lo
contrario las experiencias frustradas ha&n que el usuario se retrayese ante nuevas
necesidades, y abandonase 10s procesos de btisqueda, intentando obtener resultados
por otros medios menos adecuados.

Los usuarios tendian a desconocer que Internet era un recurso global, sobre todos
10s campos de1 saber, y que consecuentemente se podfan obtener resultados muy
diversos y sin relaci6n entre si. Como consecuencia de ello, no comprendian 10s
criterios que utilizaban las herramientas de btisqueda para ofrecer resultados, ni w&l
era el criteria de relevancia que establecia el orden de las respuestas. A lo anterior se
unia que muchos de 10s usuarios no tenian un concept0 claro de que se trataba de un
proceso de btisqueda o de recuperacidn de informacidn en entomos electr6nicos, ni de
las t6cnicas para seleccionar 10s tkrminos 0 expresiones m& precisas, ni tampoco
cu&les debian ser 10s criterios de calidad para seleccionar las respuestas m&s
adecuadas.
14 RECUPERACI6N DE LA INFORMACl6N EN PJTERNET 0 R&MA

Las ayudas basicas que deberian ofrecerse a 10s usuarios s&an la posibilidad de
conocer las fuentes de informackk, la orientaci6n y use de cada una de ellas, asi coma
la capacidad de desarrollar diferentes tipos de consultas, indicando en las respuesta
posibles categon’as jerticluicas de 10s documentos, e indicadores temporales y
geognificos sobre las paginas web. Como recomendaciones, 10s autores acababan
concluyendo que lo mAs importante era hater comprender al usuario que la
recuperaci6n de informacibn en Internet, o en cualquier entorno digital, no es un
evento, un suceso aislado, sino un proceso en el que intervienen diferentes factores, y
en el coal el usuario debia tomar decisiones, incluyendo la valoraci6n de las respuestas
obtenidas
CAPiTULO 2

FUNDAMENTOS DE
RECUPERACIdN DE INFORMACI6N

La recuperaci6n de informaci6n es una actividad que el ser humano realiza,


consciente e inconscientemente, casi continuamente, y en el mxco de cualquier otra
actividad. La necesidad de resolver una duda, o de documentar una afirmaci6n o
estudio, son expresiones cl&icas de 10s procesos de recuperaci6n de informaci6n. Con
el desarrollo de 10s sistemas digitales de procesamiento de datos y de tratamiento de
informac%n, las tkcnicas de recuperaci6n de informaci6n han ido desarrollando un
conjunto de teoria y aplicaci6n przictica que subyacen en la actualidad a cualquier
actividad en entomos inform&ticos, y que resultan ser la base de1 descubrimiento,
blisqueda y recuperaci6n de informacibn en Internet. Un complete panorama de1
desarrollo, fundamentos y aplicaciones de la recuperacibn de informacibn puede
encontrarse en el volume” Readings in Information Retrieval (Sparck Jones y Willet,
1997).

2.1. CONCEPT0 DE RECUPERACI6N DE 1NFORMACIi)N

En primer lugar, es necesario determinar qu6 se entiende por recuperaci6n de


informaci6n. Para empezar, la propia expresi6n engloba un proceso, no un evento,
coma serialamos en el capitulo anterior. Este proceso tiene una motivacibn, unas fases,
unas tkcnicas e instmmentos y unos resultados. Se inicia un proceso de recuperaci6n
de informaci6n cuando una persona detecta una inconsistencia o carencia en su
estado de conocimientos que le impide tomar una decisi6n o desarrollar una acci6n.
Los investigadores de la recuperaci6n de informacibn, por ejemplo Belkin, han
enfatizado este punto, sefialando la presencia de un estado an6malo de conocimiento
16 RECUPERACldN DE LA INFORMACIdN EN liTERNET 0 RA~MA

(ASK, Anomalous State of~G~owkdge), o de on problema de incertidumbre, de ajuste


de1 espacio mental de1 individuo (problem space), coma Ingwersen. Cuando el
individuo siente esa inquietud, comienza a desarrollar on conjunto de acciones que
consigan devolver el equilibrio a sus esquemas mentales. Estas acciones se centran en
la btisqueda de nueva informacidn, y suelen estar mediadas por on proceso de
comunicaci6n, que puede ser una interaccidn persona-persona, o bien una interacci6n
hombre-m&quina. El resultado de esas acciones, si son adecuadas, es la adquisici6n de
la informaci6n necesaria para alcanzar de nuevo el equilibrio en 10s esquemas
mentales. En la realidad, 10s procesos de recuperaci6n de informaci6n suelen ser
b a s t a n t e continues, y generalmente l a resoluci6n d e on problema trae coma
consecuencia la aparici6n de otros nuevos.

Para Ingwersen (1992), la recuperacidn de informaci6n son 10s procesos envueltos


en la representacibn, almacenamiento, bhsqueda y localizaci6n de informacidn que es
relevante para resolver on requerimiento de informacid” formulado por on ser
humane. Consecuentemente, el objetivo de la recuperacidn de informacibn, entendida
coma una disciplina cientifica, serfa estudiar y comprender 10s p r o c e s o s d e
recuperacibn de .informacSn, con la finalidad de disefiar, construir y probar sistemas
de recuperaci6n que puedan facilitar la comunicaci6n efectiva de la informaci6n
deseada entre el usuario y el creador de la misma. Desde una perspectiva de1 proceso
informative-documental, el lector debe observar que la recuperacidn comienza
precisamente por la descripcidn o representacibn de 10s documentos y/o infor-
maciones. Las representaciones obtenidas deben almacenarse en aldn soporte fisico.
L o s usuarios desarrollan tareas d e b6squeda sobre esas representaciones, y ~610
terminan el proceso cuando localizan 10s documentos, es decir, cuando accede” al
contenido complete de1 documento en cue&n. Cabe la posibilidad de que aunque la
representaci6n parezca adecuada a lo que esta buscando el usuario, tras el acceso al
original representado, y el anAlisis de Cste, se demuestre que, en realidad, no satisface
las necesidades de1 usuario. En este case, el proceso contintia, ya que, coma ha
serialado Hjiirland, en la recuperaci6n de informaci6n se produce la paradoja de que
no existe una tinica solucidn ni un claro fin de1 proceso.

La teoria y las tknicas de recuperaci6n de informaci6n son inseparables de1


desarrollo de la producci6n cientifica, que crece exponencialmente durante el siglo
XX. El aumento constante de1 nhmero de rev&as, monografias y articulos sobre 10s
mb diversos campos de la ciencia ha obligado a 10s investigadores a crear y utilirar
constantemente macanismos que les permitan conocer el estado de1 conocimiento en
so campo, mediante la consulta de recursos de informacidn (que adoptan la forma de
bases de dates documentales conteniendo referencias bibliogrticas, directories,
patentes o articulos a texto complete). lkte ha sido durante muchos afios el modelo de
negocio de la industria de la teledocumentaci6n. A esta producci6n se fueron uniendo
progresivamente las bases de datos sobre comercio y economia, las bases de datos de
prensa, y 10s datos disponihles en 10s archives de las Administraciones fihlicas. Este
proceso, cuya complejidad se ha simplificado en la explicacSn, ha desembocado en lo
que se ha dado en llamar la <<crisis de la informaci6m. A esta sobreabundancia de
0 RA-MA c,wiTuLo 2: F~DAMENT~~ DE RECUPERACI~N DE INFORMACI~N 17

informaci6n se ban venido a unir las posibilidades de publicaci6n de documentos


digitales, de todo tipo y clase, que ofrece Internet. Cabe sefialar aqui que tampoco es
adecuada, frente a esta situacidn, la linea de pensamiento que bate de Internet tinico y
mayor media de resoluci6n de las necesidades de informacibn de 10s usuarios.

L a informitica desemperia un p a p e l f u n d a m e n t a l e n l a recuperaci6n d e


inforrnacSn, desde que en la dkada de 1950, Mooers y 10s test de Cranfield fijaron el
punto de partida. Los sistemas inform&ticos de tratamiento y recuperacidn de la
informaci6n han sido objet0 de investigaci6n y desarrollo inintermmpido desde tan
temprana fecha, y lo contintian siendo en la acmalidad. El trabajo que desarrollan 10s
mismos cons&e en dar soporte a las tareas de descripcidn, almacenamiento y
btisqueda, ofreciendo al usuario una interfaz de trabajo que permita la interaccibn
hombre-miquina. Como se analizara en prkimos capitulos, 10s instmmentos de
b6squeda de informaci6n que utilizan 10s usuarios de Internet se basan en la teorfa
de recuperaci6n de informacibn que se dibuja en este capitulo, y que permite conocer
sus principios, aplicaciones, posibilidades y limitaciones. Como punto de partida, el
usuario de Internet debe comprender que se encuentra ante documentos que
incorporan gran cantidad de informaci6n textual, cuyo tratamiento es m6s profundo y
complicado, en cuanto se trata de creaciones de1 intelecto humane, poco o nada
estructurados, que representan conocimientos de muy diverso tipo, y que ban sido
creados en un entomo de libertad muy diferente al existente en otros contextos.

2.2. LOS PROBLEMAS PRkTICOS EN LA RECUPERAChN


DE INFORMACI6N

El esquema de la recuperaci6n de la informacidn parece sencillo, a simple vista: se


representa, se busca y se mira. Nada m& complejo en realidad. Adem& de la paradoja
de la incertidumbre, hay que destacar dos problemas prkticos que ayudarin al usuario
a comprender toda su complejidad.

2.2.1. Recuperacih de datos frente a recuperacih de informacih

Blair (1990) ha resumido las diferencias entre data retrieval (recuperacibn de


datos, RD) e information retrieval (recuperaci6n de informackjn, RI), utilizando
corn0 criterios las siguientes cuestiones:

1. Seg6n la forma de responder a la pregunta: En RD se utilizan preguntas


altamente formalizadas, cuya respuesta es directamente la informacibn deseada.
En RI las preguntas resultan diffciles de trasladar a un lenguaje normalizado, y
la respuesta es un conjunto de documentos que pueden contener, ~610
probablemente, lo deseado, con un evidente factor de indeterminacidn.
2. Segtln la relaci6n entre el requerimiento al sistema y la satisfaccidn de usutio:
En RD la relaci6n es deterministica entre la pregunta y la satisfacci6n. En RI es
probabilistica, a causa de1 nivel de incertidumbre presente en la respuesta.

3. Setin el criteria de 6xito: En RD el criteria a emplear es la correcci6n y la


exactitud, mientras que en RI el tinico criteria de valor es la satisfacci6n de1
usuario, basada en un criteria personal de utilidad.

4. Segtin la rapidez de respuesta: En RD depende de1 soporte ffsico y de la


perfecci6n de1 algoritmo de bkqueday de 10s indices. En RI depende de las
decisiones y acciones de1 usuario durante el proceso de interrogaci6n.

Para diferenciar claramente ambos enfoques, piense en 10s resultados de formular


una consulta contra un sistema de gestidn relational de bases de dates, coma Paradox
o VisualFoxPro. Una consulta en &tos exige on dato en un campo, y la respuesta no
deja luger a duda. Es un sistema cerrado, determinado, de respuesta exacta. Si no se
obtiene respuesta, es porque no la hay, o porque el usuario ha introducido 10s dates
mal. En cambio, en un sistema de recuperaci6n de informaci6n textual, no basta con
obtener respuestas, hay que valorar si ktas son adecuadas o no, lo que debe hater el
usuario, y volver a formular la btisqueda en case de que sea necesario.

2.2.2. El problema de 10s tres lenguajes

El usuario plantea SW necesidades utilizando el lenguaje humane en sus variantes


escrita y oral. Una vez establecido claramente el requerimiento de informaci&, en un
lenguaje al que podrfamos llamar, con precauciones, wA&icon, 10s conceptos
delineados y las relaciones entre ellos deben traducirse a un lenguaje documental,
entendiendo coma tal un lenguaje estructurado que sirve para representar el contenido
de 10s documentos. fista es la segunda transformacidn que se realiza sobre 10s
conceptos, y consiste en adecuar lo expresado por el usuario, 10s conceptos y
relaciones, a 10s tkrminos y relaciones que puedan haber sido utilizados para
representar el contenido de 10s documentos en la base de dates o recursos de
informaci6n que se consulte. Por supuesto, es posible utilizar directamente 10s
tkrminos y relaciones obtenidos de1 <<primer lenguaje,,, pero 10s resultados no se& 10s
adecuados. Como puede imaginar, y vera m&s adelante, 10s documentos en Internet
son objet0 de un tratamiento que selecciona de ellos aquellos t&ninos que son
considerados coma m&s significativos, y que entrarfan en este Segundo lenguaje. En un
entorno de bibliotecas o centros de documentaci6n, estos lenguajes se encuentran muy
estodiados y son objet0 de tratamiento sistemkico, lo que no sucede, por el momenta,
con 10s documentos en Internet.

Una vez obtenidos 10s t&minos y las relaciones que deban utilizarse, las
expresiones resultantes deben transformase a un cctercer lenguajen, el coal cumple la
funci6n de interrogar, de una forma consistente y comprensible para el sistema
0 RA-MA CAPiTULO 2: FUNDAMENTOS DE RECUPERACI6N DE INFORMACIdN 19

informitico y sus aplicaciones, la base de dates, con la finalidad de extraer de ksta


aquellos documentos que cumplan 10s requisites establecidos. A este tercer lenguaje se
le denomina lenguaje de interrogaci6n de bases de datos, y es el marco dentro de1 coal
se deben introducir las expresiones de1 <<Segundo lenguaje)>. En este <<tercer lenguajex
10s tkrminos y conceptos expresados en 10s anteriores se& vilidos, pero ser& precise
utilize las caracterkticas propias de1 mismo en el moment0 de expresar las relaciones
entre 10s conceptos. Los procesos de transferencia entre 10s tres lenguajes suponen uno
de 10s principales problemas en la recuperaci6n de informaci6n en bases de dates
(Deschatelets, 1986). Mientras 10s uterceros lenguajew ~610 ofrecen problemas de tipo
tknico, superables mediante la prktica, 10s procesos que rodean 10s nprimeros y
segundos lenguajew se encuentran con on mayor nivel de azar, lo que repercute en la
recuperaci6n de informaci6n. Este azar se intenta reducir mediante la predicck por
parte de1 usuario, de 10s tkminos que han sido utilizados para representar el contenido
de 10s documentos, independientemente de la presencia de mecanismos de control
terminol6gico. Este criteria de predicci6n es otro de 10s elementos que desempefian on
papel fundamental en el complejo proceso de la recuperaci6n de informaci6n.

2.3. TRATAMIENTO DE LOS DOCUMENTOS TEXTUALES


Para poder recuperar informaci6n en entomos digitales, en primer lugar es
necesario que &ta se encuentre recogida en on sistema especial. En el case de
documentos formados por gran cantidad de informaci6n textual, 10s mecanismos de
representaci6n no son 10s mismos que rigen en 10s sistemas de bases de datos m&
comunes, coma 10s relacionales. El tratamiento de grandes cantidades de informaci6n
textual demanda on conjunto de tkcnicas especiales, las cuales so vez caracterizan a
estos sistemas, y que corresponden a la manipulaci6n de registros o documentos de
extensi6n variable o indefinida y poco estructurados, la utilizaci6n de la tkcnica de1
fichero inverse, y la utilizacidn de la 16gica booleana coma mktodo bkico de
recuperaci6n de informacibn.

2.3.1. La tkcnica de1 fichero inverso


En primer lugar, la utilizaci6n de la tCcnica de1 fichero inverse (o fichero invertido)
es un element0 ckico de 10s sistemas de recuperaci6n de informaci6n textual
(Korfaghe, 1997). Dada la gran cantidad de informaci6n textual contenida en 10s
documentos textuales, sea on fichero de WordPerfect, de Word, o una pagina web, 10s
procedimientos cl&icos de btisqueda secuencial o de ficheros indexados no son
capaces de responder de manera adecuada a 10s requerimientos de velocidad y
exactitud en la respuesta necesarios para satisfacer al usuario. Por esta raz6n, estos
sistemas utilizan una especializaci6n de 10s ficheros indexados, desarrollando un
nuevo tipo de fichero, al que se conoce coma 4ichero inversok,.
20 RECUPERACldN DE LA INFORMAClh, EN INTERNET ORA-MA

El fichero inverse contiene, ordenadas alfab&icamente. todas y cada una de las


palabras o tkminos con significado senxintico, contenidos en 10s documentos
presentes en la base de dates documental. ValMala imagen de una larga lista de
palabras ordenadas, acompaiiada por una indicacidn de1 documento en el que aparece
cada una de ellas. En el moment0 de realizer una btisqueda o consulta, el sistema de
recuperaci6n de informacidn no procederfa a leer todos y cada uno de 10s documentos:
simplemente, buscaria en el fichero inverse correspondiente todas y cada una de las
ocurrencias de 10s tkrminos buscados, ofreciendo coma resultado el nlimero de
documentos en el coal aparecen. Dependiendo de1 sistema utilizado, acto seguido
pueden mostrar, o no, 10s documentos pertinentes. En la mayor parte de las situa-
ciones, el sistema queda a la espera de nuevas 6rdenes de1 usuario, Sean de ejecutar
nuevas bhsquedas, Sean de visualizacidn de 10s documentos. En la tknica de1 tichero
inverse se ban introducido progresivamente mejoras y especializaciones. Asi, 10s
ficheros inverses no suelen limitar so contenido al t&mino y el documento o
documentos en 10s que aparece. Se han incorporado tambit% 10s datos referidos a la
estmctura y ptiafo, dentro de1 documento en el que aparece, asi coma la linea y la
posicidn absoluta dentro de la linea, en el modo ctdocumento 3, campo titulo, p&rafo
2, linea 2, palabra 4,.

de informacih textual

Indizach:
I. Extracci6n de tkrminos
_ 2. Palsbras vscias -
3. Stemming
4 Selecci6n de t6rminos
5. Creacih del indice
documento 6. Comwzskin

base de dates documental

Figura 2.1. Creaci6n de un fichero inverse

El proceso de creaci6n de estos ficheros permite conocer quk se puede pedir a uno
de estos sistemas. Cuando un sistema de recuperacibn de informaci6n debe introducir
la representacibn de un document0 textual, desarrolla un proceso de indizaci6n (o
indexacibn) automzitica (Baeza-Yates y Riberio-Neto, 1999), al que algunos autores
anteponen un preprocesamiento de1 documento. En cualquier case, Cstas son las fases
que se siguen:
0 W-MA CAPiTULO 2:FUNDAMENTOS DERECUPERACldN DEINFORMACI6N 21

1. Extracci6n de 10s t&minos: el sistema analiza todas y cada una de las cadenas
independientes de caracteres. Este analisis se hate desde una perspectiva
eminentemente lCxica, y so objetivo es identificar las palabras.

2. Eliminaci6n de palabras vacias: el conjunto de t&minos resultantes se compara


con un listado de palabras que no son significativas desde una perspectiva
semzintica (por ejemplo, articulos o preposiciones), llamadas en ingles
stopwords. El objetivo es reducir por filtrado el ndmero de t&minos a tratar,
suponiendo que tstos no afiaden informacibn a la representacibn, al tiempo que
reduce el tamtio de1 fichero resultante.

3. Identificacidn de raices: proceso llamado stemming, se trata de identificar y


aislar las raices o lexemas determinantes de las palabras, eliminando prefijos y
sufijos, Parte de1 supuesto de considerar que el plural de un t&mino puede
significar lo mismo que el singular; luego lo verdaderamente significativo para
la representacidn de1 document0 seri la raiz o lexema.

4. Selecci6n de tQminos para el indice: en la fase anterior se ban obtenido todos


10s t&minos que pueden ser significativos pensando en la representacibn de1
contenido informative de1 documento. Sin embargo, se utilizan t6cnicas que
permiten reducir atin m&s ese ntimero. Por ejemplo, si se detecta que &ernasco,,
y nparrilla*> aparecen seguidos en el document0 en varias ocasiones, podn’an
sustituirse por ntemasco parrilhw en el fichero de indice resultante. De la misma
forma, se utilizan indicadores estadisticos para determinar el nivel de signi-
ficacidn de unos t&minos frente a otros en el indice, dando prioridad a aquellos
terminos con m&s alto valor de representatividad.

5. Agrupaci6n de documentos: algunos sistemas comparan 10s indices obtenidos


de cada uno de 10s documentos procesados, y proceden a crear un cluster de
documentos, agrupando en grupos de documentos de contenido similar, a
aquellos documentos que ofrecen parecidos resultados tras el proceso de
indizaci6n (Kowalski, 1997). Un ejemplo de ello son las opciones de1 tipo (CM&
corn0 6ste.. > qne ofrecen algunos sistemas.

Los ficheros de fndice obtenidos suelen ser de gran tamaiio, por lo que se utilizan
tkcnicas de compresi6n (Witten, Moffat y Bell, 1999), de tipo estadistico, o usando
diccionarios o codificacidn particular, para obtener ticheros de menor tamario, con
vistas a su manipulaci6n en 10s sistemas informhticos de manera m8s bgil. Ademis,
existen diferentes algoritmos para desarrollar 10s procesos de indizacidn, que pueden
ofrecer en ocasiones diferentes resultados, debido a que se acompafian de tkcnicas
estadisticas, de ponderacidn de frecuencia, valor o peso de 10s t&minos, de
vectorizac%n, de redes neuronales, bayesianas y de inferencia, o usando t&nicas
de indizaci6n de semantica latente, aprendizaje simb6lico o algoritmos genkticos, que
desbordan el Bmbito de este texto.
2.4. EL PROCESO GENeRICO DE RECUPERAC16N DE
INFORMACI6N
El complejo proceso de recuperaci6n de informacibn engloba numerosas tareas, de
las que la consulta de recursos de informacibn electr6nica resulta ser una m&s de ellas
(Tramullas, 1997). El auge que estan teniendo en 10s liltimos aiios 10s sistemas de
informaci6n de todo tipo, desde las Administraciones Mblicas hasta las pequefias y
medianas empresas con sus sistemas de informaci6n contable, han favorecido que la
mayor parte de las actividades relacionadas con la blisqueda y localizaci6n de la
informacibn se desarrollen sobre sistemas informziticos. En cualquier case, context0 o
situacibn, puede establecerse, desde una perspectiva tedrica, pero apoyada en la
experiencia prktica, un modelo de proceso de recuperac%n, al que podrfamos
considerar agenkricox que seguitia las siguientes fases:

I
toma de decisiones
Presentacid” a, “S”P,iO
I I

Figura 2.2. El proceso de recuperaci6n de informaci6n

1. Definici6n de las necesidades informativas de1 usuario

2. Selecci6n y ordenaci6n de las fuentes y recursos de informacidn a utilizar.

3. Traslaci6n de las necesidades de1 usuario al lenguaje documental propio de la


fuente a utilizar en cada case. Es posible, adem&, encontrar fuentes en las que
no se utilice ninglin tipo de vocabulario controlado, en cuyo case resultara
necesario afinar el trabajo terminol6gico. Esto quiere decir que si el recurso de
informacidn ofrece la posibilidad de indice de palabras usadas o similar, o una
clasificacSn, sera mejor usarlo en luger de emplear 10s tCrminos propios. En
case contrario, habra que probar varias aproximaciones o uses de 10s tkrminos.
0 RA~MA CAPiTUI.0 2: FUUNDAMENTOS DE RECUPERACIdN DE lNFORMACl6N 23

4. Traducci6n de la expresi6n con 10s tkminos y relaciones entre ellos, al


lenguaje de interrogacidn propio de cada sistema.

5. Ejecuci6n de las expresiones de1 lenguaje de interrogaci6n obtenidas

6. Consulta de las respuestas obtenidas, para analizar su pertinencia o no a la


cuesti6n planteada.

7. Replanteamiento, si procede, de las expresiones utilizadas, si 10s resultados


obtenidos no son pertinentes.

8. Selecci6n y obtenci6n de 10s documentos que respondan a las necesidades


manifestadas por el usuario.

9. Revisi6n de1 contenido informative de 10s documentos, para valor= si fuese


necesario replantear la btisqueda, a nivel de recurso de informaci6n o de
expresi6n usada en la blisqueda.

10. Transmisidn de1 resultado, preparado adecuadamente, al usuario.

Todas las fases son susceptibles de tratamiento informitico, aunque kste queda
claramente resaltado en las fases 5, 6, 8 y 9. La fase 10 tiene lugar cada vez en mayor
medida, gracias a la publicaci6n digital. La perspectiva traditional de la teledo-
cumentaci6n, ampliamente expuesta en numerosas obras de referencia (Salvador y
Ang6s, 2000), ha servido coma base a la estmctura de fases propuesta, aunque es
necesario puntualizar que la expansi6n y la aparici6n de nuevas tknicas informkicas
pueden modificar tanto el planteamiento coma la ejecuci6n de las acciones enca-
minadas a acceder a la informaci6n. Puede apreciarse que un componente clave son
las uexpresiones de btisquedao, que se engloban bajo la denominaci6n de ecuaciones.
Las caracteristicas de 10s lenguajes de recuperacSn, de 10s operadores que ofrecen y
de las reglas para formular expresiones seran tratadas en el apartado 2.6.

Una importante tknica que utilizan numerosos sistemas es la Relevance Feedback.


Se basa en que el usuario selecciona, de las respuestas obtenidas, varies documentos
cuyo contenido m&s se adecua al objetivo de su blisqueda. El sistema analiza 10s
documentos seleccionados, y procede a reorientar sus mecanismos de interrogaci6n
para ajustar 10s nuevos resultados a 10s resultados esperados, dando m&s peso a 10s
tkminos y documentos similares, y restando peso a 10s no similares (Kowalski, 1997).
Los estudios realizados muestran que tras tres o cuatro iteraciones de1 proceso se
obtienen muy buenos resultados. Por el momenta, y debido a las caracterfsticas de la
informaci6n en la web, esta tkcnica todavia no se ha incorporado con todo su potential
a 10s sistemas de recuperaci6n que se usan en este entomo.

Resulta necesario realizar una liltima aclarackk, referida a la utilizaci6n de1


tkmino restrategia,. Los manuales suelen utilizar esta palabra para hater referencia a
24 RECUPERACl&‘J DE LA INFORMACl6N EN INTERNET 0 .!A-MA

las ecuaciones utilizadas en un proceso de recuperaci6n. Sin embargo, y desde una


perspectiva tanto sem6ntica coma funcional, es mh correct0 utilizar el tkmino
estrategia para todo el proceso, o por lo menos para englobar las directrices generales
definidas y utilizadas por el usuario, usando el tkmino &ictica>> para las acciones m&s
prkticas encaminadas a la obtenci6n de 10s resultados. Desde este enfoque, la
utilizaci6n de un conjunto de ecuaciones de consulta es m&s una tActica, siendo la
estrategia la planificacidn de consulta de fuentes, 10s criterios de seleccidn de las
mismas, etc.

2.5. LAS ESTRATEGIAS DE INTERROGAChN


Meadow (1992) ha establecido una interesante clasificaci6n de 10s tipos de
blisquedas que pueden desarrollarse en el context0 de un sistema de recuperaci6n
de informacidn. La estrategia debe ser un plan ideal de interrogacidn de1 recurso de
informaci&, que debe incluir el objetivo de la btisqueda, asi coma 10s planes
particulares que pueden llevarse a cabo en cada case. El objetivo de la btisqueda se
obtiene identificando quk tipo de informacibn se necesita y sus caracteristicas. Una
vez definido el objetivo, debe establecerse un plan general de operacidn, con una
selecci6n de 10s recursos de informacidn a utilizar, las decisiones y altemativas sobre
10s tkminos a utilizar en las ecuaciones, y las relaciones 16gicas que existan entre 10s
t&minos. El plan especifico de operaci6n se desarrolla una vez acabado el anterior, y
debe formular ecuaciones con t&minos que ofrezcan el mayor grade de precisibn, con
una secuencia 16gica. Es necesario conocer con anterioridad la respuesta a varias
cuestiones que afectan a la interrogacidn de 10s recursos de informaci6n que se van a
utilizar, tales coma el contenido y alcance de 10s mismos, el lenguaje de recuperacibn
y operadores a utilizar durante las consultas, 10s limites que puedan existir para la
consulta, etc., ya que todas ellas afectan y modifican el enfoque de1 usuario.

2.5.1. Tipos de estrategia


En el moment0 actual, parece m&s adecuado utilizar el tkrmino para identificar el
plan general de bbsqueda. No existe una tinica ni perfecta aproximaci6n a las
estrategias de interrogacidn de bases de datos. En la mayor parte de las ocasiones
depende de la experiencia de1 usuario y de la calidad de1 contenido de 10s registros
existentes en la base de dates, especialmente en lo que corresponde a so control
terminol6gico. La estrategia depende, en gran manera, de la formackk, intuici6n y
experiencia de1 usuario. Considerando la intencidn de1 interrogador, diferentes
esmdios seiialan que pueden establecerse varies tipos principales de btisqueda, clasi-
ficindose en dos grandes grupos, sin que esto impida que se produzcan situaciones
intermedias.

a) CategorizacGn por objetivo:


1. Btisqueda de element0 conocido: Se trata de blisquedas en las wales el
interrogador sabe co61 ser& la respuesta, cuyo contenido, por ejemplo, utiliza
ORA~MA CAPfTULO 2: FUNDAMENTOS DE RECUPERAC16N DE INFORMACKiN 25

para completar una referencia bibliogr&%a, o b i e n utiliza on ntimero d e


inventario para comprobar el contenido de on registro dada.

2. Blisqueda de informaci6n especifica: El interrogador busca una informaci6n


especifica dada, generalmente sobre on tema concrete y limitado, coma trabajos
publicados en un afio o por on autor.

3. Btisqueda de informacibn general: Intenta buscar la informacibn sobre una


materia o asunto, de forma general, que obtenga una visi6n global de1 estado de
la misma.

4. Exploracidn de la base de datos: Se trata de conocer quk tipos de informaci6n


y/o documentos se encuentran almacenados en la base de dates, a qut pueden
responder y &no pueden utilizarse.

b) Categorizaci6n por plan de operaci6n:

1. Btisqueda directa: Se trata de una aproximacidn expeditiva, en la que se intenta


resolver el problema con la formulacibn de una 6nica consulta. Coma puede
deducirse, resulta dificil obtener buenos resultados con la misma.

2. Btisqueda **breve>>: Es una evoluci6n de la anterior, en la que se trata de


recuperar unos elementos significativos entre on gran nlimero obtenido tras una
sola ecuacidn.

3 . Ampliaci6n: Comienza c o n ecuaciones que plantean c o n d i c i o n e s rnuy


restrictivas, que ofrezcan documentos pertinentes. Tras analizar la respuesta, el
usuario puede ampliar o expandir, eliminando condiciones, las ecuaciones de
b6squeda h a s t a recuperar t o d a l a informacidn existente. Poede ofrecer
problemas si la ecuaci6n initialno es adecuada.

4. Restriccidn: Opuesta a la anterior, formula ecuaciones que ofrecen resultados


muy amplios, con poca condiciones, para posteriormente utilizar ecuaciones
m8s reshictivas, hasta delimitar 10s documentos pertinentes.

5. Construccidn de bloques: Intenta establecer bloques de informacidn que


r e s p o n d a n a 10s componentes d e so ldgica, para combinarlos entre si
posteriormente, h a s t a encontrar una combinack que responda a l a s
necesidades planteadas.

2.6. LENGUAJES DE INTERROGACI6N Y OPERADORES


Se puede definir on lenguaje de interrogacibn coma on conjunto de drdenes,
operadores y estructuras que, organizados segrin unas normas ldgicas, permiten la
consulta de recursos de informacidn electrdnica. El resultado de la combinacidn de
26 RECUPERACI6N DE LA INFORMAC16N EN liVERNET 0 RA-MA

estos elementos es una expresibn, a la que se identifica con el nombre de <<ecuaci&w,


capaz de interrogar el contenido de la fuente de informaci6n. Hasta la d6cada de 1980
la interfaz de interrogaci6n preponderante foe la formulaci6n de expresiones escritas,
clue inclufan todos 10s componentes (orden, t&minos y operadores de relaci6n). Con la
progresiva implantaci6n de las interfaces grificas, 10s sistemas de recuperacibn de
informaci6n han incluido estas caracterfsticas, sustituyendo la formulaci6n textual
de expresiones por entomos de selecci6n que utilizan botones, mentis desplegables y
casillas de verificacidn.

Figura 2.3. Expresi6n textual e interfaz gratica en Inmagic DB/TexWorks

Las normas 16gicas que rigen un lenguaje de interrogacidn responden a cuestiones


relacionadas con la coordinaci6n de 10s elementos, es decir, con la formulacidn de
ecuaciones (Frants, Shapiro y Voiskunskii, 1997). Estas normas (a modo de sintaxis)
especificaran el orden de 10s elementos, la disposicidn de las estmcturas, sus
posibilidades combinatorias, las prioridades en la ejecuci6n, y todo tipo de posibles
funciones. Las 6rdenes se& aquellas palabras o abreviaturas que le indicartin al
sistema las acciones a ejecutar (buscar la expresidn, mostrar 10s documentos o
registros resultantes, consultar el tesauro o 10s ficheros inverses, ejecntar un pertil de
usuario...). Sin embargo, no todos 10s lenguajes de interrogacibn utilizan las mismas
palabras coma brdenes, aunque las drdenes ejecuten las mismas funciones. A este
panorama se one la proliferacidn de interfaces grticas de usuario, que sustituyen a las
6rdenes y la sintaxis traditional, dejando al usuario (si Me lo desea) ~610 la labor de
introducir 10s tCrminos y 10s operadores que expresan las relaciones existentes entre
ellos. En on lenguaje de interrogacibn, 10s operadores son 10s encargados de expresar
las relaciones que mantienen entre si 10s t&minos que define” (m8s adecuado seria
decir que pueden definir) las necesidades informativas de1 usuario. Pueden distinguirse
diferentes tipos de operadores, que se analizan a continuaci6n.
CAPfTULO 2: NNDAMENTOS DE RECUPERACI6N DE lNFORMACl~N 27

2.6.1. Operadores 16gicos o booleanos

Los operadores ldgicos, llamados booleanos en honor a G. Book, precursor de la


Mgica simbdlica y de1 Algebra de conjuntos, son 10s mb utilizados en numerosos
sistemas. El principio que rige el use de este tipo de operadores es que las relaciones
entre conceptos pueden expresarse coma relaciones entre conjuntos. Las ecuaciones de
bdsqueda pueden transformarse en ecuaciones matemhticas, que ejecutan operaciones
sobre 10s conjuntos, lo que da coma resultado otro conjunto. Los tres operadores
bkicos son el operador suma/uni6n (identificado coma O/OR), el operador productol
intersecci6n (identificado coma Y/AND), y el operador resta/negacSn (identificado
coma NO/NOT). A su vez estos operadores pueden combinarse entre si, generando
operaciones m&s complejas, coma el 0 exclusive (elimina la intersecci6nk etc. No
deben obviarse 10s p r o b l e m a s q u e p l a n t e a n 10s o p e r a d o r e s b o o l e a n o s ,
independientemente de so potencia. En primer lugar, siempre se plantean en tkminos
de absolute (presente/ausente), sin considerar el peso especifico de1 tkmino en el
contexto. En Segundo lugar, exigen un alto valor de precisi6n en 10s t&minos
utilizados. Por tiltimo, requieren claridad en la composici6n de las expresiones a
buscar.

AND/Y
(product0 kgico)

NOT/NO
(resta lirgica)

Figura 2.4. Los operadores booleanos

2.6.2. Operadores posicionales

Los operadores posicionales pretenden superar algunas de la limitaciones que


ofrecen 10s booleanos. Toman coma punto de partida la valoraci6n de1 tbmino dentro
de1 context0 en el que se encuentra, es decir, que la posici6n de ese tkmino en
relacidn con otros, o dentro de1 propio registro, es significativa para valorar su
pertinencia a 10s objetivos buscados. Los operadores posicionales pueden dividirse en
dos tipos. El primero de 410s corresponde a 10s posicionales absolutes, 10s cuales son
aquellos que permiten buscar un tkmino en un lugar dado de1 document” o registro.
Por regla general, son operadores de campo, y permiten al usuario fijar en qu& campo
o campos presentes en la estructura de base de datos debe aparecer el tkrmino buscado.
La presencia de1 termino en un campo dado (par ejemplo, en el campo titulo), puede
ser una garantia de la adecuaci6n del document” a 10s objetivos, en gran ntimero de
cases. Los posicionales relatives, tambiin llamados de proximidad, son operadores
que permiten establecer la posici6n de un ttkmino respect” a otro dad”. Se consi-
dera que la cercania entre 10s dos ttkminos puede reflejar una intima relaci6n entre 10s
conceptos reflejados por 10s mismos. Estos operadores permiten definir el nivel de
proximidad entre 10s t&minos (mismo campo, linea, frase, ntimero de tkrminos
significativos que 10s separa...).

2.6.3. Operadores de truncamiento y de limitekomparacih

Pueden dame situaciones en las cuales sea necesario utilizar no un tkrmino simple,
sino tambikn sus derivados, fijados por prefijacihn o sufijacidn, minimas variantes
Itkicas, etc. Para facilitar la blisqueda de este tipo se han introducido operadores de
truncamiento, a 10s que tambien se llama mkaras. Se trata de operadores (normal-
mente simbolos coma *, $), cuya presencia puede sustituir a un carkter o a un
conjunto de caracteres, situados a la izquierda, dentro o a la derecha de1 tkmino en
cuesti6n. Los operadores de limite y/o comparaci6n especifican el rango de bcsqueda,
fijando unos limites para la misma. Estos limites pueden ser tanto numkicos coma
alfabkticos, correspond&do 10s operadores a formas del tip” umayor quen, nmenor o
igual quen, o combinaciones de ktos. Se utilizan principalmente en documentos que
pueden contener datos numkicos.

En 10s actuales sistemas de recuperaci6n de informaci6n es posible encontrar todos


estos tipos de operadores, que pueden combinarse entre si, permitiendo crear ecua-
ciones complejas que reflejen con un alto nivel de precisi6n 10s conceptos y sus
relaciones. La combinaci6n de 10s operadores debe respetar un conjunto de reglas,
basicas en todos 10s sistemas, que establecen las prioridades y formas de ejecuci6n de
ecuaciones complejas. cuando combinan m&s de dos conceptos. Los sistemas tienden a
resolver, a ejecutar en primer lugar, aquellas expresiones que se relacionan utilizando
el operador m8s restrictive o prioritario. Por ejemplo, un operador positional absoluto
posee on nivel de restricci6n (una prioridad) mayor que un operador boolean”, lo que
significa que el sistema ejecutari antes la expresi6n cuyo operador es el positional
absolute, combinando posteriormente el resultado con el operador boolean” y su
termino relacionado. Sin embargo, pueden darse expresiones en las cuales sea nece-
sari” variar estas prioridades, y ordenar al sistema que ejecute en primer lugar
expresiones con operadores de menor nivel de restricc%n, relacionando luego su
resultado con t&minos a trav& de operadores mk restrictivos. Para estas situaciones,
se utilizan par&tesis, 10s wales engloban a las expresiones que deben ejecutarse en
0 RA~MA CAPiTULO 2: PUNDAMENTOS DE RECUPEKAClh’ DE INFORMACldN 29

primer lugar, independientemente de las prioridades fijadas por el sistema. La


utilizaci6n de expresiones entre pakntesis hate posible, por ejemplo, que el resultado
de una expresidn con un operador booleano pueda ser combinada con un operador
positional absolute. Los parkntesis pueden anidarse, resolvi&dose las ecuaciones
planteadas desde dentro hacia fuera, de la misma forma que las expresiones mate-
m&icas.

2.7. LA RECUPERACI6N POR EXPLORACI6N EN


ENTORNOS HIPERTEXTUALES
Los mecanismos de recuperacidn de inform&k que se han analizado han tenido
su principal aplicacidn sobre bases de datos documentales, cuyo contenido corres-
pondia, sobre todo, a registros o documentos de tipo textual, que representaban
documentos existentes en el mundo real, que ofrecian un nivel similar de homo-
geneidad. Cada una de esas representaciones se almacenaba coma un element0
independiente de las o&as. Sin embargo, la introducci6n de 10s sistemas hiper-
textuales, el desarrollo de la navegaci6n por la informaci6n usando criterios de
asociaci6n, etc., dibuja un panorama en el que 10s documentos, o sus representaciones,
no pueden verse aislados unos de otros. Adem&, esos documentos ofrecen un alto
nivel de heterogeneidad. Las asociaciones entre documentos hacen necesario prever
que pueden, y deben, existir otras aproximaciones para desarrollar procesos de
recuperaci6n de informaci6n en entornos y sistemas hipertextuales, coma es el World
Wide Web. Esto no significa que no puedan aprovecharse 10s desarrollos de las
tknicas de recuperaci6n de informaci6n reseiiadas, al contrario. Las tknicas de
recuperaci6n de informaci6n mediante consultas, las estrategias y 10s lenguajes de re-
cuperaci6n, con sus operadores, siguen, y seguirin, desempekmdo un papel funda-
mental para buscar y recuperar informaci6n en estos contextos.

La exploraci6n o navegaci6n es la tkcnica bkica que utilizan 10s usuarios para


recuperar informaci6n en el hipertexto. Los investigadores, al considerar que es un
proceso de asociaci6n interactive, han utilizado en numerosas ocasiones la expresi6n
<<descubrimiento d e informackkw (information discovering), pard definir la
recuperackk de informaci6n por asociaci6n. En algunos sistemas hipertextuales se
combina la selecci6n de tkrminos significativos, extraidos de 10s propios documentos,
que sirven para compilar indice hipertextuales de referencia, y para definir nuevos
puntos de acceso a 10s documentos. En 10s sistemas hipertextuales cerrados, se diserian
tambikn mapas o estructuras de trayectos, que ofrecen una visi6n griifica de c&no se
organiza y localiza la jnformaci6n contenida en el sistema hipertextual. Aunque
todavia no es el case de la web, cada vez estzin apdreciendo m8s herramientas capaces
de analizar 10s documentos y piginas web para generar mapas grSicos de la estIuctura
y asociaciones de parks de1 mismo que interesen al usuario, afiadiendo a 10s mismos
la capacidad de navegaci6n y exploraci6n. Objeto de investigaci6n es el anzilisis de 10s
enlaces que contiene un documento, en cuanto se considera que pueden llevar al
usuario a informacidn directamente relacionada con su objeto de inter&. Cada vez
mayor cantidad de sistemas de recuperaci6n de informaci6n estan ofreciendo pres-
t a c i o n e s hipertextuales, generadas autom8ticamente. coma complemento a 10s
mecanismos basados en ecuaciones de blisqueda, de tal forma que las t&micas de vi-
sualizaci6n de contenido relevante de 10s documentos se unen a las t&micas de
asociaci6n con otros documentos con las mismas caracteristicas.

Figura 2.5. Un mapa hipertextual creado con Pfolomeus

2.8. LAS INTERFACES GRAFICAS PARA VISUALIZACIdN DE


INFORMACdN

Los desarrollos m& recientes relacionados con la recuperaci6n de informaci6n se


han centrado en ofrecer al usuario interfaces que mu&ran el resultados de las
bfisquedas de forma visual, sustituyendo 10s listado de respuestas por represent&ones
gkficas en espacios bidimensionales (y tridimensionales). Estas interfaces son
llamadas VIRI (Visual Iq‘bmation Retrieval Interfnce). Las presentaciones que
ofrecen al usuario son muy variadas, y aportan diferentes prestaciones y posibilidades.
En primer lugar, algunos dibujan un mapa de documentos, posicionando iconos
representatives III& o menos cerca de1 centro del mapa, segfin so adecuaci6n a la
respuesta. Otros adoptan la forma de mapas graficos distribuidos por regiones, seglin
las agrupaciones de documentos, mostrando la posici6n de aparici6n de 10s tkrminos,
coma por ejemplo, aquellos basados en las mapas de Kohonen. Tambikn se han
probado tablas, gkficos de barns, e in&so presetnaciones de mundos virtuales
tridimensionales. Muchas de estas presentaciones utilizan el modelo de vectores para
representar documentos y para desarrollar las blisquedas, lo que facilita usar la
respuesta obtenida coma punto de partida para nuevas preguntas. Sin embargo, estas
prestaciones alin no se encuentran suftcientemente maduras para ser integradas en
software de use genkrico.
0 KA.hlA c.wiTuLo 1: FUNDAMENTOS L)E KECUPEKA~IC~N DE INF~KMA~IC~N 31

2.9. ANtiLISIS Y REVISIdN DE RESULTADOS

La experimentaci6n ha desarrollado varies indicadores matemBticos para establecer


la fiabilidad y el nivel de tkito de 10s procesos de recuperaci6n de informaci6n. El
conjunto de documentos obtenido coma resultado de la ejecuci6n de una ecuacicin de
blisqueda es un subconjunto del conjunto total de documentos existentes en el KCUTSO
de informaci6n consultado. Puede darse el case de que la respuesta consista en un
nlimero excesivamente elevado de documentos, o un nhmero minima. Los resultados
responden a la 16gica y a las condiciones expresadas en la ecuaci6n de btisqueda, lo
cual no supone que scan pertinentes a las necesidades del usuario. En realidad, es
posible ejecutar ecuaciones funcionalmente pertectas (operadores, kkminos...), sin que
10s documentos resultantes ofrezcan utilidad para el usuario. Por tanto, es necesario
valorar y evaluar la respuesta a las ecuaciones planteadas. La primera modificaci6n a
realizar en la formulacicin de las ecuaciones afecta al nlimero de respuestas obtenidas.
En el case de un excesivo niimero, se utilizan t&nicas de restricci6n, mediante la
introducci6n de tkminos m&s especificos, desechar ttkninos generalistas, o limitar 10s
truncamientos. En el case de un nlimero muy reducido, las acciones a tomar son las
contrarias: utilizar tkrminos m&s generales, incluyendo derivados y relacionados,
limitar 10s operadores mBs restrictivos, afiadir tnmcamientos, etc.

Los resultados de una blisqueda se pueden valorar cuantitativamente utilizando dos


paknetros, que son la exhaustividad y la precisi6n. Estos par&netros combinan cl
nlimero de documentos pertinentes y no pertinentes, y recuperados y no recuperados,
scgljn las siguientes fknulas:

La tasa de exhaustividad responde a la f&mula a/(a+c), y deberia situarse entre el


0,6 y el 0,X. La tasa de precisiirn responde a la f6rmula a/(a+b), y se sitlia entre 0.2 y
0,X. El principal problema para calcular la tasa de llama&a es conocer la variable c,
casi imposiblc de ajustar en situaciones normales de recuperaci6n de informaci6n, por
lo que se suelen utilirar tknicas estadisticas y de muestreo para obtener valores
fiables. En el World Wide Web, sin embargo, 10s problemas para calcular estos
indicadores son mayores, y ya han generado un conjunto de estudios y aproximaciones
que in&den sobre esta cuestiirn (Olvera, 2000).
CAPiTULO 3

LA RECUPERACIdN DE
INFORMACIdN EN INTERNET

El conocimiento de las caracteristicas prop& de 10s documentos (p8gina.s web)


que el usuario puede encontrar en Internet, y de la teorfa de la recuperaci6n de
informaci6n, son 10s pilares bkicos sobre 10s que construir una tknica adecuada
de recuperaci6n de informaci6n en Internet. Los dos capitulos anteriores han versado
sobre estos temas, desde un enfoque eminentemente tekico. Los capitulos siguientes
abordarin las principales herramientas prkticas disponibles para desarrollar procesos
de recuperaci6n de informaci6n. Por lo tanto, en este capitulo se expondri un m&do
przktico de aplicaci6n de la teoria de la recuperaci6n de informaci6n a las especiales
condiciones que se producen en la World Wide Web.

3.1. LA WEB COMO ESPACIO HIPERMEDIA Y TEXTUAL

El World Wide Web es una estructura hipertextual e hipermedia de informaci6n,


cuyo componente fundamental es el texto. Al organirarse esta estmctura de infor-
maci6n coma hipermedia, la unidad que corresponde al nodo de la teoria hipertextual
es la pagina web. Como ya hemos expuesto anteriormente, la pagina web in&ye 10s
elementos necesarios para navegar por la estructura de la informa&n, seglin 10s
critetios de asociaci6n definidos por el creador de 10s documentos. Estos elementos
son 10s anclajes y 10s enlaces. Cuando el usuario pulsa sobre un anclaje, se ejecuta el
enlace (o link), que le lleva a un tmevo nodo.

Aunque todos 10s nodes adoptan la forma de pagina web, no todos 10s nodes son
de1 mismo tipo, ni ofrecen el mismo contenido informative. El usuario puede
encontrar pziginas web que contengan indices, noticias, trabajos cientificos,
recopilaciones de enlaces a otras paginas web, o presentaciones gr&‘icas. Incluso
puede encontrar pziginas web generadas din&micamente, que ~610 existen en un
moment0 dada, con contenidos creados a petici6n de1 usuario. Tambikn puede recibir
documentos, gracias al protocolo HTTP (que es el que emplean 10s servidores y 10s
navegadores para intercambiar informackk), que no scan pziginas web, sino ficheros
en format0 Adobe Acrobat, en PostScript, o ficheros de aplicaciones que admitan OLE
(como las aplicaciones ofimaticas m&s comunes). El componente principal de las
paginas web es el texto, ya que lo usa tanto para las instrucciones de presentacidn
(HTML), coma para presentar informaci6n. Este texto es el que utilizan las
herramientas de btisqueda y recuperaci6n de informacidn en Internet para representar
10s documentos en sus bases de dates.

Las herramientas de bhsqueda aplican sobre cl texto 10s principios que se han
explicado sobre recuperaci6n de informaci6n textual: indizaci6n automAtica, creaci6n
de ficheros inverses, compactaci6n. ..y, consecuentemente, 10s usuarios disponen de
las mismas prestaciones para la recuperaci6n: operadores booleanos, de posici6n,
vectorizaci6n... Al tratarse de un entorno abierto y cambiante, las herramientas de
btisqueda ofrecen listados de resultados, que dirigen al usuario hack el document0
original. Los cambios que se producen, por la propia diximica de1 web, hacen que en
ocasiones esa redireccibn no ofrezca 10s resultados esperados, y que en numerosas
ocasiones haya que completar la blisqueda mediante procesos de exploraci6n basados
en la navegacibn. Coma conclusibn, el usuario siempre debe pensar que no basta, en
recuperaci6n de informacidn en Internet, con seguir 10s resultados obtenidos de un
motor de btisqueda, por ejemplo. Esos resultados hay que explorarlos, analizarlos,
valorarlos, y seleccionarlos coma adecuados, o desecharlos coma no pertinentes. Las
herramientas de recuperaci6n de informaci6n en la web son un media mk, una fase
intermedia, no un fin.

3.2. ENFOQUES PARA LA RECUPERACIdN DE


INFORMACIdN EN INTERNET

Los actuales motores y agentes de recuperaci6n de informacibn para Internet no


son 10s primeros ni 10s tinicos instrumentos desarrollados a tal fin. Tan temprano coma
comenz6 el crecimiento geomktrico de la informacibn en Internet, comenzaron a
desarrollarse instrumentos para facilitar la localizaci6n y acceso a 10s recursos de
informaci6n (Gilster, 1996). Cabe en este moment0 recordar aplicaciones coma
Archie (para localizar ficheros en servidores FTP, todavia active en algunos lugares),
Whois, NetFind (para localizar personas), Veronica (para gopherspacios, las
arquitecturas de informaci6n creadas por 10s desaparecidos servidores Gopher),
prospero, o el potentisimo WAIS (Wide Area Information Server, aplicaci6n basada en
239.50, y que sirvi6, en un primer momenta, corn0 motor intern0 10s primeros
motores de bbsqueda en Internet). Un hito importante lo march la aplicaci6n &t&et,
creada por P. Scott, que ofrecia un entorno tinico de acceso y consulta a catalogos
0 RAAM ctwiTuL0 3: LA RECUPERACION DE INFORMACION EN INTERNET 35

automatizados d e bibliotecas d e todo e l m u n d o , b a s a d o e n T&et, y q u e


posteriormente ha pasado a convertirse en un servicio web.

3.2.1. Principios de imprecisih y de fertilidad

La teorfa de la recuperaci6n de informaci6n en Internet parte de 10s logros y


limitaciones de la teoria de recuperaci6n de informaci6n, desarrollados desde la
dkada de 1960. Como acertadamente ha wialado Sebastia Salat (1999), la etapa
expansiva en la que se encuentra la recuperaci6n de informacibn, de la mano de1
desarrollo acelerado de Internet, hate necesario replantear las prestaciones de las
actuales herramientas, ya que son necesarios cambios que adecuen las prestaciones a
lo que demanda el usuario. Esta investigadora hate referencia a 10s principios de
impotenciaIimpresi6n y de fertilidad en la recuperaci6n de informaci6n, algunos de
cuyos aspectos citamos seguidamente, por so inter& para el usuario que busca
informaci6n en Internet:

1. Principios de impotenciaIimprecisi6n: La necesidad de informaci6n de un


usuario no puede traducirse de manera exacta a una estrategia de btisqueda, por
la imposibilidad de abarcar todo el conocimiento humane. Esto supone que la
recuperaci6n de informacibn siempre se sitiia en el Bmbito de la hip6tesis. A lo
anterior hay que aiiadir que el proceso de indizaci6n automatico no asegura que
se reproduzca la esencia de1 documento original representado. Ambas cues-
tiones hacen que no pueda garantizarse la pertinencia de todos 10s documentos
recuperados tras un proceso de btisqueda.

2. Principio de fertilidad: El use de sistemas de informaci6n electr6nica va a


permitir la interconexi6n, cada vez a mayor escala, entre diversas disciplinas.

3.2.2. La ausencia de intermediarios

La actividad de1 usuario en la blisqueda y recuperaci6n de informaci6n en Internet


es independiente y aut6noma. No suele existir la presencia de on intermediario entre 61
y 10s recursos de informaci6n que consulta, a diferencia, por ejemplo, de la existencia
de1 bibliotecario o de1 documentalista, en on entomo traditional. Esto es debido a que
el usuario tiene acceso directo a la informaci6n y a 10s documentos, a escala plane-
taria, por lo que se convierte en el responsable de la misma, sin necesidad de
intermediaries. Este cambio es de suma importancia, ya que la propia din&mica de la
web ha eliminado la presencia de intermediaries especialirados, convirtiindose el
usuario al mismo tiempo en creador, lector, localizador y evaluador de documentos.
Puede deducirse de manera dizifana que la falta de formaci6n de1 usuario en 10s
campos de la recuperaci6n de informac&, de la documentaci6n y de la organizaciSn
de conocimiento, asi coma un escaso conocimiento de la estructura, funcionamiento y
desarrollo de Internet y de la web, convierten a esta te6rica ventaja en un gran
inconveniente, ya que el conocimiento de estos campos es un factor de kxito muy
importante (Bruce, 1998).
Sin embargo, cada vez en mayor medida 10s especialistas en informacibn
(bibliotecarios y documentalistas especialmente) se estzin convirtiendo en inter-
mediarios especialirados para la recuperaci6n de informaci6n en Internet. Incluso
estBn apareciendo empresas especializadas en recuperar informaci6n de alto valor,
propio y afiadido, disponible en Internet. Son numerosas las bibliotecas y centros de
informaciMdocumentaci6n que ofrecen, entre sus servicios, acceso a Internet y
consejo especializado en bfisqueda de informacidn, apoyando al usuario en las
limitaciones a las que Me, por diversos motives, tenga que bacer frente.

3.2.3. Los enfoques de creacibn de recursos de informacibn

La necesidad de desarrollar berramientas que facilitasen la localizaci6n y acceso a


la informaci6n en Internet oblig6 a adoptar, en un primer momenta, dos aproxi-
maciones clkicas para la recuperaci6n de informacibn, similares a las ya existentes en
10s entornos de documentaci6n automatizada (Tramullas, 1997, Benito, 1998).

1. La creaci6n de listados, indices y cat&logos ordenados por tieas o matenas, de


forma que el usuario dispusiese de un conjunto de fuentes seleccionadas en las
que empezar a buscar. El ejemplo m6s conocido es el norteamericano Yahoo!.
Estos cat5logos comenzaron a compilarse y organizarse de forma casi manual,
pero el aumento de documentos y priginas web en Internet ha obligado a
introducir en so cadena de producci6n herramientas automaticas de compilaci6n
y clasificaci6n. Adem&, han ido aiiadiendo motores intemos a sus prestaciones,
de forma que permiten consultar mediante ecuaciones sus bases de datos
intemas.

2. La creaci6n automitica de bases de datos basadas en indices o ficheros inversos,


mediante unas aplicaciones que rastrean o exploran todo el Ambito Web,
llamados robots, spiders o wanderers. Estos robots rastrean la web a la blisqueda
de documentos, obtienen una copia, la indizan seglin 10s m&odos vistos en el
capitulo anterior, y usan 10s enlaces presentes en 10s mismos para localizar
nuevos documentos. Estos sistemas, aunque autom&icos, ofrecen limitaciones
en cuanto a cobertura, nivel de indizaci6n de1 documento y otras cuestiones,
corn0 por ejemplo la actualizacibn.

3.2.4. Los enfoques seglin la herramienta de recuperacibn

La especializaci6n de las herramientas, y 10s requerimientos de 10s usuarios, cada


vez m&s exigentes, hacen posible diferencias varias aproximaciones, segtin la herra-
mienta de recuperaci6n que se utilice en cada case. Sin embargo, casi todas ellas
siguen utilizando, coma punto de partida para el proceso de recuperaci6n. 10s indices y
bases de dates indicados en el apartado anterior. Estas aproximaciones pueden ser
(Tramullas, 1997):
L. Directa: El usuario utiliza su navegador para conectarse al servidor web que
aha coma interfaz de1 motor de btisqueda correspondiente a la base de datos
que desea consultar. El servidor le envia una pagina web que acttia coma
interfaz de interrogaci&, a trav15s de la cual formula la consulta, establece 10s
parhetros correspondientes, y la remite al servidor. El servidor la recibe,
process y envia coma respuesta una nueva pigina web, generada de forma
dinhica, que contiene las diez o veinte respuestas m& pertinentes seglin su
criteria, a la cuestih formulada por el usuario. Ihe actha sin intermediaries,
directamente sobre el motor de btisqueda y su base de datos

2. Por intermediario: El usuario utiliza su navegador para conectarse a un servidor


web que le ofrece una interfar de interrogacih propia. Esta interfaz le permite
interrogar una base de datos correspondiente a un motor de bhqueda situado
en un servidor web diferente al que ofrece la interfaz. De esta forma, el
servidor que envia la interfaz actha coma intermediario entre el motor de
blisqueda de destino y el usuario. Dependiendo de1 servicio de que se trate, el
intermediario recibe la respuesta de1 motor, varh las caracteristicas de
presentacih, y la remite al usuario. El verdadero inter& de estos intermediaries
se da cuando acthn coma interfaz a mliltiples motores de btisqueda, ya que de
esta forma el usuario puede remitir su consulta a todos ellos mediante una
acci6n iinica. Estas interfaces mtiltiples reciben el nombre de metabuscadores.

3. Por agente: El usuario instala en su maquina una aplicacih que permite


form&r las ecuaciones de btisqueda y remitirlas directamente a uno o varies
motores de blisqueda. La aplicacih lanza conexiones simultheas al conjunto
de motores que se trate, recibe las respuestas, y las entrega al usuario en una
presentacih tinica, que puede ofrecer diferentes formas. Dependiendo de las
prestaciones de1 agente, las respuestas pueden ser filtradas. aplicando criterios
propios de eliminacihde duplicados, reordenacih de resultados, etc. Los mb
avanzados comprueban la existencia real de las piginas web en la direccih de
referencia, y son capaces de obtener y colocar en la mAquina de1 usuario una
copia de1 documento original.

3. Por robot personal: Se trata de aplicaciones que se instalan en el ordenador de1


usuario, y que son capaces de acceder a un servidor web, construir un mapa de
indices de SW contenidos, y utilizar 10s mismos para acceder a la informacih
que sea interesante para el usuario, obteniendo copias de las paginas o
documentos web contenidos en el mismo. El mapa, indice o base de datos
creados se almacenan en el ordenador de1 usuario, y pueden ser actualizados
regularmente. Cuando el usuario requiere una informacih contenida en la
misma, el robot lanza al navegador en modo local en busca de la misma. Estos
robots, todavfa escasos, incorporan casi todas las prestaciones que ofrecen 10s
agentes
3.3. LIMITACIONES EN LA RECUPERACIbN DE
1NFORMACIi)N

El principio de impotencia/imprecisiSn seiialando en un apartado anterior se ve


aumentado por las caracteristicas dinsmicas de la informaci6n en Internet. Al igual
que en 10s sistemas clksicos de recuperaci6n de informaci6n, 10s sistemas de1 mismo
tipo disefiados para Internet tambikn sufren de las limitaciones indicadas. A ellas se
unen otras derivadas de la estructura hipertextual o de la dinBmica de actualizac%n de
documentos, o bien a factores externos a las tknicas de recuperaci6n de informac%n y
al propio usuario:

1 . E x i s t e una disfunci6n entre 10s procesos d e indizaci6n autorktica, l a


representaci6n de1 contenido de un documento que se crea coma consecuencia
de1 mismo, y el contenido informative real de1 mismo.
2. La cobertura de 10s motores no es exhaustiva. SegGn 10s diferentes estudios,
Hotbot es el que mayor cobertura ofrece, y ~610 llega a un 32% del total de la
web. El contenido de 10s diferentes motores tambien se solapa en park, luego se
deberia realizar la misma blisqueda en varies, para aumentar la cobertura de la
web sobre la cual tiene lugar la consulta, con el riesgo de aumentar las
respuestas repetidas.
3. La actualizaci6n de las bases de datos no es automka. Las variaciones qne
puede sufrir una pAgina web no son automziticamente reflejadas en 10s motores.
Los robots de indizaci6n visitan a intervalas cada vez mayores las paginas
indizadas en sus bases de dams, dando prioridad a aquellas que son m&
solicitadas en las bhsquedas. Esta priorizaci6n cast@ las piginas web objeto de
menos consultas, independientemente de so importancia informativo-docu-
mental.
4. Como consecuencia de lo anterior, 10s motores no reflejan adecuadamente la
variabilidad espacial y temporal de las paginas web. Esto quiere deck que el
usuario puede encontrarse con 10s tipicos errores 404, lo coal no quiere decir
que la pagina y so informaci6n no existan: puede ser que simplemente hayan
cambiado de localizaci6n o de estructura hipertextual. Las bases de datos de 10s
motores ofrecen un indice notable de inconsistencia respect0 al universe que
reflejan.
5. La estructura hipertextual de la web no se refleja en la representacid” de las
pziginas en 10s indices y bases de datos. Por ahora, se representan paginas
individuales coma objetos diferenciados, sin atender a su posible pertenencia a
estructuras mayores, a so context0 informative.
6. No todos 10s motores de btkqueda ofrecen 10s mismos operadores, ni las
mismas estructuras y reglas para formular las ecuaciones. No existe un estkdar
en este campo, por lo que es necesario conocer las particularidades de cada
motor, en el case de tener que desarrollar btisquedas con ecuaciones complejas.
0 RA~b,A CAPiTULO 1: LA RECUPERACIh DE INFOKMACI~N EN INTERNET 39

7. Las respuestas que ofrecen las herramientas a las ecuaciones formuladas no


presuponen fiabilidad ni rigor. MO responden a la ecuaci6n planteada. La
consideraci6n de si 10s resultados obtenidos merecen fiabilidad y confianza
queda a discreci6n de1 usuario. Si Me es conocedor de un tuna, puede discemir
estas cuestiones, En case de ser ne6fito en una cuesti6n, debe considerar que la
existencia de una piginacon una informaciirn dada en Internet no implica que
sea rigurosa ni documentada.
8. Los resultados ofrecidos por estas herramientas y aplicaciones no pueden
ofrecerse ni tratarse *en brutw. Es necesario e ineludible complementar la
respuesta con el acceso al documento, su revisi6n y su selecci6n o recharo, en
funci6n de criterios de inter& establecidos claramente. Esta actividad supone la
utilizaci6n de la exploraci6n coma complementaria a la btisqueda.

3.4. EL PROCESO DE RECUPERACIbN DE INFORMACIbN


EN INTERNET

El lector puede encontrar en Internet gran cantidad de tutoriales y g&s sobre c&no
localizar y recuperar informaci6n en Internet. Como en muchas otras cuestiones,
recuerde que wzada maestrico tiene su libricou. En todos ellos podrB encontrar ideas y
orientaciones de suma utilidad, y nosotros le recomendaremos algunos de ellos. En 10s
siguientes pirrafos se propone un proceso de recuperaci6n basado en la teoria de la
recuperacibn de informaci6n expuesta en el capitulo anterior. Y recuerde siempre que
la recuperaciSn de informaci6n no es un proceso y una actividad exacta: pueden haber
varias procesos y varias soluciones distintas para el mismo problema. Los especialistas
de la Biblioteca de la Universidad de California en Berkeley recomiendan siempre que
el usuario desarrolle sus proceso de birsqueda siempre xcon visi6n perif&icw:
aprender sobre el tema conforme se busca, variar las estrategias conforme se sabe m&,
y no abandonar ninglin m&do de btisqueda a menos que se encuentre lo que se busca,
o se aprenda alga nuevo.

3.4.1. Planteamiento de1 tema. Nivel de conocimientos

En primer lugar, debe establecer claramente cu51 es el objetivo de su inter&. Hay


objetivos que pueden parecer adecuados, pero que en realidad necesiten un refina-
miento. Por ejemplo, <wzcesito informaci6n sobre Zaragozw, es una necesidad ma1
planteada. HabrB que definir sobre qu& aspect0 de la ciudad. Si es generalista, tambit%
puede consultar una enciclopedia, o una guia de viajes, sin necesidad de acudir a
Internet. Si busca un peribdico de Zaragoza, quizi debe empezar por localizar un
listado de peri6dicos espafioles. Evite pensar en directo: plantee todas las posibles
situaciones que pueden darse, y piense en varias tacticas para acercarse al problema. Si
prepara estas ticticas alternativas, las respuestas que obtenga durante una consulta,
sobre tunas relacionados con lo que est6 buscando, pueden servirle coma punto de
partida para buscar por exploraci6n. En Segundo lugar, debe establecer cu&l es su
propio nivel de conocimientos sobre el tema. No dude en preguntar a Was personas si
no conoce un tuna a nivel medio. Si su nivel de conocimientos es adecuado, podr6
abordar el problema de la fiabilidad con mayores garantias. En cualquier situaci6n,
esta fase debe dar como resultado una formulaci6n clam e inequivoca de1 objetivo de
su btisqueda, por ejemplo ccnecesito informaci6n sobre el gran tibur6n blanco, nombre
cientifico Carcharodon Carchariasn.

3.4.2. Identificacidn de 10s tipos de informacih

El web contiene diferentes tipos de informaci6n, tanto por el tipo de fichero que 10s
contiene, coma por el objetivo y finalidad de las paginas web y de 10s creadores de las
mismas. Si esti buscando informaci6n sobre el tibur6n blanco, piense que puede
recuperar paginas web con historias de ataques a personas, con informaci6n de la
biologia de1 mismo, con informaci6n sobre excursiones en Sudifrica o en Australia
para verlo en acci6n, con paginas dedicadas a c6mics en 10s que aparece un tiburdn de
esta clase, con psginas dedicadas a la venta de documentales sobre el tiburbn, con
clubes de amigos de1 tibur6n blanco.. y un large et&era. Debe establecer la posible
utilidad de cada una de estos tipos de documentos, y no desdefiar ninguno a priori, ya
que por exploraci6n puede encontrar informaci6n complementaria que le sea de
utilidad

Figura 3.1. Interfaz de Northern Light


3.4.3. Selecci6n de 10s recursos de informacibn y de las herramientas
de consulta

La selecci6n de 10s recursos de informaci6n, es decir, indices, director& y motores


de bhsqueda a utilizar, es de suma importancia. Cada vez en mayor ntimero estan
apareciendo director& especialirados en 10s m& diversos temas, desde el tine al
Proyecto Genoma. El problema de estos directories es que, en numerosas ocasiones,
ofrecen coberturas muy parciales, aunque 10s indices que ofrecen tienen un alto nivel
de fiabilidad. Si no conoce estos directories, o no encuentra uno de su inter& debe
recurrir a 10s motores generalistas, al estilo de HotBot, InfoSeek o Altavista. Si desea
comparar 10s resultados ofrecidos por varies de &tos, lo m8s recomendable es utilizar
un metabuscador (buscadores y metabuscadores seran tratados en el siguiente
capitulo). La segunda parte de esta fase definirz! qu& herramienta utilizara para
consultar 10s recursos de informacibn. Podra optar por un navegador para utilizar la
interfaz web de 10s motores o de 10s metabuscadores, o bien podra war un agente
personal, que agilizara el proceso de consulta a mtiltiples fuentes de informacibn (las
prestaciones de 10s agentes se& tratadas en un capitulo posterior). Recuerde que usar
una interfaz web es m&s lento, pero ofrece todo el potential de 10s lenguajes de
consulta. Usar agentes es m8s ripido, pero limita las prestaciones de 10s lenguajes de
interrogaci6n.

3.4.4. Transformacibn entre lenguajes

El problema de 10s tres lenguajes se ve reducido a dos. Al no existir un control


terminol6gico centralizado en Internet (lo que en realidad es una ventaja), el usuario
utilira en las ecuaciones 10s t&minos que ha identificado en la primera fase, por
ejemplo xtibur6n blancon y wzarcharodon carchariasx. L a s p a l a b r a s claws
seleccionadas por el usuario se utilizan directamente en las ecuaciones. En principio,
evite todo lo posible la bhsqueda simple de palabras (pm ejemplo, 4ibur6tw), ya que
es casi un seguro de fracaso. No dude en usar 10s operadores booleanos, y 10s
operadores de frase (a de posici6n relativa, en el sentido de Nestas dos palabras van
s e g u i d a s porque forman una expresi6n tinican), p o r e j e m p l o cccharcharodon
charcharias)), que le ofrecer&n un nivel m8s elevado de &ito. Recuerde siempre que
10s motores trabajan con la presencia/ausencia de texto en determinadas posiciones de1
documento o pagina web, lo cual quiere decir que la aparici6n de &os no significa
que 10s documentos Sean pertinentes a lo que esta buscando. Y no olvide que 10s
motores no atienden a idiomas si no se les indica: si quiere recuperar documentos en
varias lenguas, lo mejor es que piense en 10s t&m&s sin6nimos en cada idioma.

3.4.5. Formulacibn de la ecuacibn. Ejecucibn. Recepcibn de


respuestas

Uno de 10s mementos claws corresponde a la formulaci6n de las ecuaciones. Debe


introducir en la interfaz o herramienta que haya seleccionado para desarrollar la
42 RECUPERACrON DE LA lNFORMAClON EN ,NTERNET 0 RA~VA

blisqueda, la expresi6n que reline 10s tbminos elegidos, y 10s operadores que
establecen las relaciones existentes entre aqukllos. Los motores ofrecen siempre
paginas de ayuda en las que explican las posibilidades de1 lenguaje de interrogaci6n
que usan, y suelen incluir ejemplos. No dude en consultarlas. Tambit% ofrecen
interfaces simples y avanzadas para formular las ecuaciones. En cuanto domine un
poco el funcionamiento de on motor, es preferible que utilice las interfaces avanzadas,
ya que le van a ofrecer m8s potential y paknetros que le ayudakn a perfeccionar las
ecuaciones y a obtener resultados mks ajustados. Si ha optado por war on agente,
tenga en cuenta que Me traducirA al lenguaje de cada motor la expresi6n que el
usuario introduzca, pero precisamente esa generalizaci6n hate perder la oportunidad
de usar operadores m8s restrictivos. Cuando haya dado todos estos pasos, pulse el
bot6n de Search, Find o Buscar, y espera pacientemente a que la herramienta que
haya elegido comience a enviarle las respuestas. En cualquier case, puede aplicar
algunas reglas bkicas:

1. Si busca on nombre proplo o una frase completa, use las opclones y operadores
de xfrase exactax (entrecomillando la expresi6n)

Figura 3.2. Buscando al Karcharodon Carchariaw con Northern Light PowerSearch


0 R&MA cwiTuL0 3: LA RFXXJPERA~I~N DE ~PWXWMXW EN INTERNET 43

2. Si busca p&bras muy comunes en muchos contextos, utilice 10s operadores


booleanos, especialmente el operador ANDN (para incluir todos), y 10s
operadores NOT/NO o AND NOTN NO para excluir p&bras que le amplien
demasiado 10s resultados.

3. Si ha optado por usar siknimos, lo mejor es usar una expresi6n booleana que
relacione todos 10s thminos sindnimos usando el operador OR/O.

4. Si busca thminos de raiz similar, pero diferentes sufijos (par ejemplo, singular
y plural), use 10s simbolos de truncamiento.

5. Si quiere una primera aproximaci6n exitosa en muchas ocasiones, use el


operador positional de titulo, de forma que recupere 10s documentos en 10s
cuales la expresi6n o p&bras deseadas aparezcan en el tftulo de la pigina web.

3.4.6. Amilisis de listado de respuestas. Replanteamiento.

El listado de respuestas que reciba de cualquier herramienta de btisqueda siempre


va a ofrecer unas caracteristicas comunes. L o s motores envian paginas c o n 10s
resultados, generalmente agrupados de diez en diez. Los agentes ofrecen un listado
general, aunque se puede fijar un limite de respuestas a recibir por parte de cada motor
consultado. En ambos cases, 10s listados de respuestas incluyen:

1. El titulo que identifica a la pagina web en cuesti6n. Situada dentro de las


etiquetas <TITLE> c/TITLE>, tekicamente el titulo de una pagina web es
una primera aproximaci6n a su contenido informative. La pulsaci6n sobre el
enlace del titulo le lleva al documento original.

2. Un indicador de su nivel de pertinencia o de adecuaci6n a la consulta planteada,


en una escala de 100 (90%, 67%, 48%...). Este indicador lo calculan 10s
motores segfin criterios internos, asi que no debe sorprender que no coincida
con el valor real para el usuario.

3. El URL en el que puede localizarse el documento original. No olvide que 10s


motores no almacenan copias de las paginas web que indizan; ~610 se consultan
sus indices. Cuando quiere ver el documento original, la pulsaci6n de este
anclaje le lleva al mismo.

4. Un breve resumen, creado usando las etiquetas <META>, las primeras frases
de la pagina web, o las cabeceras interiores de1 mismo, u otros criterios,
dependiendo de cada motor.

5. En algunos motores, se acompafian de enlaces de1 tipo aMris coma be...>>


(eMore like this...>>). Si se trata de un documento especialmente 6til para el
usuario, la pulsaci6n de este enlace le permitira obtener un nuevo listado con
otros de contenido muy similar.
3.4.7. Preseleccih de respuestas pertinentes. Exploracih de 10s
documentos originales.

Estudie el listado de respuestas. En primer lugar, use 10s datos que le ofrece el
listado para desechar aquellos que no Sean adecuados. Si busca sobre el tibur6n
blanco, evidentemente un titulo coma xMotos acuaticas Tibur6n Blanco),, aunque
tenga un indicador de1 87%, no es un documento titil, y no hate falta pulsar el enlace
que le lleva al documento original. Si el titulo es <<La alimentacihn de1 tibur6n
blanco,,, no dude en explorar el documento. Pulse en el enlace que le lleva al
documento original. Para aligerar el trabajo, y evitar la sobrecarga cognitiva, use el
men6 emergente (bot6n derecho de1 rat& sobre el enlace), y pulse la opci6n Abrir en
ventana nueva... (Open in New Window...). De esta forma podra explorar el
documento, y otros relacionados con el mismo, sin perder la ventana con el listado de
respuestas, lo que facilitara nuevas exploraciones (en case contrario, ya se puede
preparar para empezar a war el bot6n Anterior/Back muchas veces, para al final
acabar desorientado). Si el documento, o documentos a 10s que ha accedido le
interesan, pase al punto 3.4.9. En case contrario, basta con cerrar la ventana que estti
documentos, o 10s documentos no contienen esos t&minos; b) que la ecuacidn
sea demasiado restrictiva, con demasiadas condiciones. Para estos cases, debe
probar con una ecuaci6n con menos condiciones, y war t&minos sin6nimos o
similares a 10s usados en la primera formulaci6n. Si tampoco obtiene resultados
positivos, pruebe a cambiar de motor, ya que no debe cegarse con obtener
resultados a la primera, y siempre en el mismo.

2. Si tras probar la modificacidn de las ecuaciones, en ambos sentidos, sigue sin


obtener resultados, entonces debe pensar en cambiar de herramienta o motor de
b6squeda. Como no todos 10s motores tienen la misma cobertura, ni wan 10s
mismos algoritmos de recuperacidn y ordenacidn de resultados, nada impide
obtener resultados positives en lugares altemativos.

3.4.9. Obtencih de documentos originales. Marcas de lectura


y copias

Cuando un documento de 10s recuperados resulta interesante para &s objetivos, el


usuario tiende a imprimirlo. En realidad, esto no es necesario. El navegador le ofrece
dos opciones, no excluyentes, para trabajar con la pagina web que se trate:

1. Coloque una marca de favorito o Bookmark: Si el documento le interesa


especialmente, pero no dispone de tiempo para su exploraci6n o su lectura
completa. mGquelo. Para ariadir on marca de favorites, ya sabe que basta con ir
al men6 correspondiente y pedir la opcidn, que varia segdn el navegador que
utilice. Recuerde que mediante el menti emergente tambikn puede crear estas
marcas, in&so sin acceder a la pigina web original, ~610 con situar el cursor
encima de1 enlace correspondiente. y seleccionando la opciSn Aiiadir a
Favorites/Add Bookmark.

2. Almacene una copia de la pigina web original en so ordenador: si el contenido


de la misma le interesa especialmente, tras acitider a la misma puede guardar
una copia de la misma usando la opci6n Guardar coma... (Save As...) en el
men6 Archive. En el cuadro de dialogo que aparece, seleccione un directorio de
destine, ponga el nombre, y pida que sea en format0 HTML. Recuerde que esta
acci6n ~610 guarda el texto, no las im&genes, al menos en las versiones m&
comunes de navegadores. Si esta interesado en las imigenes, men6 emergente
sobre las mismas, y opci6n Guardar imagen coma... (Save Image As...).
Ambas acciones no son incompatibles, coma tampoco lo es guardar una copia
local y crear una marca de favorites.

En el case de que decida ~610 imprimirla, para el control de 10s documentos no deje
de seleccionar, en las opciones de impresidn, que se incluyan el titulo de la pagina
web. el URL de1 original. y la fecha de impresidn. Esto le permitiri controlar si se
0 W-MA c,wiruLo 3: LA ~acunna,xroN tx twot+r.kctoN niv tivratwnr 47

oroducen variaciones en el contenido de la misma. Y nuardar informaci6n litil. incluso

Figura 3.5. Menli emergente: Add Bookmark.../ Save As...

3.5. CONSEJOS EN BUSCA DEL IiXITO

Los especialistas en recuperaci6n de informacidn de Aboutcorn redactan una


interesante columna que ofrece informacidn actualirada sobre las tecnicas, trncos y
desarrollos de las herramientas que estamos tratando (disponible en http://websearch.
about.com). De entre todas sns notas y guias, hemos optado per resumir aqui dos de
las mas interesantes para el usuario final.

Siete hhbitos de1 buscador efectivo:

1. Estudiar las ayudas de 10s motores de btkqueda.


2. Usar la regla de 10s ntres golpew: si no encnentra en tres intentos, cambia.
3. No tenga motores favorites.
4. Use lenguaje natural mejor que palabras sueltas
5. Use 10s operadores booleanos de forma selectiva, no ceme norma.
6. Consulte motores especializados.
7. Mantengase informado de 10s nnews desarrollos.
Siete esthpidos errores en la b6squeda:

1. No use palabras vacias, Stopwords, en las ecuaciones.


2. Utilice 10s operadores booleanos conociendo c&no acttian.
3. Evite usar p&bras vulgares y comunes.
4. Tenga precauci6n con las palabras que tienen varies significados.
5. No utilice letras maytisculas.
6. Cuidado con las frases; no todos 10s motores entienden igual la proximidad de
las palabras.
7. No busque en lugares equivocados: no se puede buscar todo en Internet.

3.6. FUTUROS DESARROLLOS DE LA BiiSQUEDA DE


INFORMACIdN EN INTERNET

La recuperaci6n de informaci6n en Internet y en la web no es un campo cerrado ni


concluido. Los productores de herramientas estan buscando constantemente mejoras y
nuevas prestaciones en sus aplicaciones. En este sentido, Gudivada y otros autores
(1997) han sefialado c&no se debe aumentar la efectividad de la recuperaci6n,
actuando sobre las tkcnicas de relevance feedback, de representacibn matem&ica de
las ecuaciones de bfisqueda y la modificaci6n de las t&nicas de representacidn de1
documento, dentro de un context0 de sistema multiagente (vkase el capitulo
correspondiente). Las vias de actuaci6n que siguen ofrecen dos lineas principales:

1. Ofrecer al usuario productos complementarios y especializados, adem& de so


servicio principal. Este tipo de productos adopta la forma de recursos de
informacibn seleccionados, clasificados y comentados, segtin diferentes niveles
de especializaci6n. fista es una estrategia bisica en la economia digital.

2. Mejorar las prestaciones tkcnicas de las herramientas, incorporando nuevas


posibilidades de consulta, algoritmos mejorados, interpret&% de1 lenguaje
natural, o mejores tecnicas de indizaci6n y compresidn de informaci6n textual.

Las limitaciones de1 enfoque traditional adoptado por 10s motores de btisqueda
llevan a proponer que Sean las mBquinas de 10s propios usuarios las que se encarguen
de la tareas de recuperaci6n de informacibn. Berghel (1997) ha propuesto tres fases
para superar esta situaci6n:

1. Agentes de informaci6n: Aplicaciones que actfian coma lo haria su usuario,


comprendiendo el context0 en el que se mueven y adoptando comportamientos
y decisiones. Estos agentes estarian adaptados a la recuperaci6n y tratamiento
de informaci6n.
2. Personalizaci6n de la informaci6n: Las aplicaciones seleccionan, procesan,
extraen y presentan la informaci6n de manera transparente, aplicando principios
de organizaci6n no lineal.

3. Identificaci6n de marca: Los recursos y productos de infonnaci6n se veran


<marcadosu por las organizaciones y 10s autores, con un marchamo o garantia
de calidad, adecuaci6n al usuario y valor afiadido. Estos elementos sekn usados
por 10s agentes para la personalizaci6n de contenidos.

4. Avanzar la informaci6n: Enviar al usuario la informaci6n con las caractetisticas


por 61 deseadas, ya preparada y adecuada desde 10s proveedores. No se trataria
de on <<push>> agresivo (que recharan 10s usuarios). Los agentes y 10s perfiles de
personalizacidn actuatian coma intermediaries.

3.7. TUTORIALES SOBRE RECUPERACI6N DE


INFORMACIdN EN LA WORLD WIDE WEB

El nlimero de tutoriales y guias disponibles en la web sobre el tema que nos ocnpa
es muy elevado. En el siguiente listado hemos recopilado aquellos que se consideran
coma m8s interesantes, completes y claros para 10s usuarios, desde un nivel bkico, a
la utilizaci6n de tkcnicas avanzadas de btisqueda.

Yahoo! Computers and Internet Internet- World Wide Web Searching the Web -
How to Search the Web
http://dir.yahoo.com/Computers_and_Intemet/I
he-Web/How-to-Search-the-Web/

Search Engine Watch


http://searchenginewatch.com/

The Search Page


http:Nwww.accesscom.com/-zieglerkearchhtml

Search Engine Showdown


http://www.searchengineshowdown.coml

~C6mo buscar?
http://wfs.vub.ac.be/schools/timeline/search/Buscar/Buscal.html

Sistemas de bhsqueda y recuperaci6n en Internet


http://www.bib.uc3m.esl-mendezlperiodislbusca.htm

Leamig More About Search Engines adn Subject Directories


http://soe.eastnet.ecu.edu/lset/project/search.htm
Boolean Searching on the Internet
http://www.albany.edu/library/internet/boolean.htmI

ZDNet WebSearch User


http://www.zdnet.com’products/searchuser.html

Search Helper: Winweaver’s Easy Search


http://www.windweaver.com/searchhelper.htm

Finding Information on the Internet: A Tutorial


http://www.lib.berkeley.edu/TeachingLib/Guides~nteme~indInfo.html

How to Search on the World Wide Web: A Tutorial for Beginners and non Experts
http://www.ultranet.com/-egrlib/tutor.htm

The Spider’s Apprentice


http://www.monash.com/spidap.html

Internet Tools for the Advanced Searcher


http://www.philb.com/adint.htm

About.com Web Search Guide


http:Nwebsearch.about.com/

Searching The World Wide Web


http://cwis.kub.nl/-dbi/english/instructwww/indexuk,htm

Web Search Strategies


http:/ihome.sprintmail.com/-debflanagan/main.html

Tutorial: Guide to Effective Searching of the Internet


http://www.thewebtools.com/tutorial/tutorial.htm

Tips for Searching the Web


http://www.neci.nj.nec.com/homepages/lawrence/searchtips.html

How to Do Field Searching in Web Search Engines: A Field Trip


http://www.onlineinc.com/onlinemag/OL1998/hock5.html

Sink or Swim: Internet Search Tools & Techniques


http://www.sci.ouc.bc.ca/libr/connect96/search.htm

Web Searching, Sleuthing and Sifting


http://www.thelearningsite.net/cyberlibrarian/searching/ismain.html
0 RA~MA CAPiTULO 3: LA RECUPERACION DE INFORMACldN EN INTERNET 51

Introduction to Search Engines


http://www.kcpl.lib.mo.us/search/srchengines.htm

SearchIQ
http:// www.searchiq.com/

Bare Bones 101: A Basic Tutorial on Searching the Web


http://www.sc.edu/beaufotilibrary/bones.html

Choose the Best Search Engine for Your Information Needs


http://www.nueva.pvt.kl2.ca.us/-debie/libra~/researc~adviceengine.html

How to Search for Medical Information


http://204.17.98.73/midlib/www.htm

Buscar informaci6n en Internet


http://www.dsp.umh.es/docent/ipodologia/

C6mo buscar y localizar informacien en la web


http://www.iata.csic.es/-inftnt/buscar/busqueda.htm

Los sistemas de localizaci6n de informacidn en Internet


http://www.um.es/-fcee/busca/portada.htm
CAPiTULO 4

LOS DIRECTORIOS
DE RECURSOS DE INFORMACIdN

4.1. iQUl? ES UN DIRECTORIO?

Para mejorar la eficacia en la exploraci6n de este gran espacio de informaci6n que


constituye la W3, una posibilidad es dividirlo en diferentes categofias temAticas
significativas para 10s usuarios (Chen 9X). Los indices o directories (classified lists),
claros herederos de herramientas de consulta coma las mencionadas World Wide Web
Virtual Library y The Mother ofAll the Bulkfin Boards, constituyen una opci6n a la
btisqueda basada en palabras claw. Son una forma organizada de navegx por la
informacidn, ya que clasifican 10s recursos incluidos en so base de datos para facilitar
el acceso a 10s mismos. L$ directorio tematico es una base de datos de documentos
web compilados por el personal que trabaja en ese servicio de btisqueda -ayudado en
muchas ocasiones por 10s propios creadores de esos documentos (webmasters) y por
robots de localizaci6n automAtica de recursos en la red- organizados en grandes
divisiones temiticas q u e s e s u b d i v i d e n e n categotias m&s especificas y asi
sucesivamente. El directorio puede -y suele- ser selective en la elecci6n de 10s
servidores que incluye en la base de datos ya que, dado que el proceso de indizaci6n y
organizaci6n de 10s recursos se realiza de forma manual, es imposible para on servicio
de estas caracteristicas abarcar toda la informaci6n disponible en la telaraiia. Por tanto,
un claro inconveniente es que recogen una proporci6n relativamente reducida de
documentos en relaci6n con todos 10s existentes en la W3, aunque esta desventaja se
ve superada por la amplitud de posibilidades a las que se tiene acceso desde 10s
directories.
Figura 4. I, Yahoo! EspaRa: la versi6n para Espafia de1 directorio Yahoo!

Es por ello que resultan m&s litiles cuando no se tiene muy perfilada la necesidad
de informaci6n o bien cuando se buscan recursos de tipo general. Presentan tambi6.n
un motor de blisqueda interno para localizar directamente recursos incluidos en la base
de datos sin que se tenga que explorar el directorio tenStic obligatoriamente, es
decir, tambit% se pueden ejecutar ecuaciones de btisqueda y plantear consultas
mediante palabras clave.

Los servicios de consulta basados en directories han Ido mcorporando cada vez
m&s prestaciones convirti&ndose en una puerta de acceso a todas las posibilidades que
ofrece la red Internet. Esta evoluci6n ha dado lugar a lo que, hoy dia, se denominan
uportalew. Un portal es un conjunto de servicios que pretenden satisfacer todas las
necesidades de1 navegante de Internet aunque, obviamente, es bastante dificil ajustarse
a las demandas de millones de usuarios potenciales. Por esto, 10s portales de carkter
general son m&s adecuados para usuarios principiantes mientras que 10s veteranos
prefieren 10s portales temiticos, especializados en un determinado campo de inter&.
Los mejores director& generales de la red juegan sus grandes bazas en dos de las
mayores Breas d e demanda d e 10s internautas actuales: las n o t i c i a s e n linea y
cuestiones de finanzas personales, ofrecen tambien acceso a compra en linea y a
variados servicios: directories de pBginas amarillas y blancas, la balsa, el tiempo,
correo electr6nic0, chnt (conversaci6n con otros internautas). etc. La carrera por ser el
mejor portal no ha hecho m8s que empezar.
Figura 4.2. Portal Tel&polis

4.2. CONSLJLTA DE DIRECTORIOS: MOTOR INTERN0 Y


NAVEGACIdN POR CATEGORiAS

Como se ha wialado, 10s indices contemplan dos opciones de consulta: la


btisqueda por categorias --que orienta al usuario en las blisquedas a trav& de1
directorio y. pulsando en 10s encabezamientos de materias, conduce a recursos
especificamente dedicados a esos temas- y la btisqueda por palabras claw mediante
el motor interno --que permite encontrar piginas web escribiendo 10s t&-mines de
bfisqueda en la ventana de consulta de1 directorio--.

Buscar por categorias es la forma III& f&cil de explorar la base de dates de un


directorio y encontrar recursos sobre un tema determinado. No se necesitan comandos
ni teclas especiales, ~610 hay que sefialar con el rat6n y pulsar. Cada servicio de
directorio crea su propia clasificaci6n tematica para indizar y organizar 10s recursos de
la W3 si bien sus sistemas de clasificaci6n han terminado parecidndose mucho entre
ellos (v&mse 10s de Excite, Infoseek, LookSmart y Lycos) aunque Yahoo! tiene un
caracter m&s acadt5mico y orientado a la investigaci6n. Sorprende ver c6mo, a pesar
de1 contenido tan diverso de la W3, 10s diferentes servicios de directorio ofrecen 10s
mismos encabezamientos de materias que, adem& suelen conducir a 10s mismos
recursos web.
Figura 4.3. El directorio espafiol BIWE

Aunque, en principio, facilitan la exploracidn, el use de 10s directories cotno


sistema de blisqueda tambien plantea algunos problemas. En ocasiones, puede resultar
confuse determinar bajo qu6 categoria de materias se habran incluido 10s recursos en
10s que se est6 interesado. Esto ocurre porque las fronteras temkicas no siempre estBn
claramente establecidas. Par otra parte su nivel de actualizacidn es limitado puesto que
tanto el proceso de creacidn de las divisiones tematicas coma el de asignar a cada
pagina web su materia dentro de1 directorio suele ser manual y lento. Para acelerarlo
se estan investigando mktodos de clasificacidn automatica que alin no se han incor-
porado de manera generalizada a este tipo de herramientas.

La consulta mediante el motor interno es la forma m8s rapida de buscar a partir de


nombres, titulos o thminos especificos d e n t r o d e 10s directories, 6nicamente
escribiendo una palabra o fmse en la ventana de consulta. Gran parte de 10s servicios
de la W3 -directories, buscadores, metabuscadores, etc.- ofrecen dos opciones de
bhsqueda, cada una con sus particularidades: la biisqueda simple (un formato de
consulta sencillo e intuitivo que permite plantear preguntas en un lenguaje directo) y la
avanrada (con un lenguaje basado en ecuaciones de blisqueda m&s elaboradas, usando
varies operadores para combinar diferentes condiciones, delimitando por titulo u otras
parks de1 documento web, etc.).
4.3. DIRECTORIOS GENERALISTAS Y ESPECIALIZADOS
Los directories generales son aquellos que incluyen paginas web sobre 10s m&s
diversos temas y escritas en diferentes lenguas. Pueden tener una cobertura
international -Yahoo!, LookSmart, Goto, Snap- incluyendo todo tipo de recursos
independientemente de so ubicaci6n geogrifica, o national --algunos ejemplos son
Biwe para Espafia, Grippo para Argentina, DIN0 para Alemania- cuando se centran
en informaciones ubicadas en servidores de un determinado pais.

Algunos de 10s servicios de btisqueda nacionales espaiioles m&s populares son El


Indice, Lycos Espaiia, Ozti, Biwe, Yahoo! Espafia y el Buscador de Telkpolis. 016,
incluido actualmente en el portal Terra, comenz6 coma un directorio national pero ha
evolucionado hacia una herramienta de consulta para facilitar la comunicaci6n entre
10s hispanohablantes. De ahi que haya ampliado so cobertura y recoja recursos
ubicados en 10s diversos paises de lengua espaiiola (y tambikn informacidn en las
distintas lenguas de Espafia). Los director& con delimitacibn geogrifica suelen
ofrecer resultados m&s satisfactorios cuando se busca algo localizado en un pais o
regi6n. Hay, adem& indices regionales cuyo fin es recopilar toda la informaci6n
ubicada en servidores de esa zona. Al concentrar todo so inter& en on drea muy
pequeiia son III& ficiles de actualirar y suelen ser muy completes.

Por otra parte, 10s directories especializados centran toda su actividad en torno a on
tiea tem&ica muy concreta e intentan incluir en sus bases de datos y procesar
(analirar, resumir, evaluar y organizar) todos 10s recursos de la W3 sobre ese tema. En
muchas ocasiones, estos directories ofrecen informaci6n mocha m8s completa y iitil
que la de las herramientas generales. Asimismo, hay directories especializados de
carzlcter national.

4.4. PRINCIPALES DIRECTORIOS

Yahoo! (http://www.yahoo.com, http://es.yahoo.com) contin6a siendo el directorio


general international m&s conocido y utilizado por 10s usuarios. Tambikn destaca
LookSmart. Ambos recogen informaci6n ubicada en servidores de todo el mundo que
cubren una vasta extensi6n de materias.

4.4.1. Yahoo!

4.4.1.1. ORIGEN Y DESCRIPCIdN DE YAHOO!

Yang y Filo, de la Universidad de Stanford, comienzan en 1994 a organizar sus


direcc&Zs favoritas en la red y aeditarlas%xnombre de David and Jerry’s Guide
to the Web. Esta actividad pronto dej6 de ser una afici6n para convertirse en un
ambicioso proyecto de recopilar una gran base de dates, desarrollando para ello un
58 RECUPERACKiN DE LA rNFoRMACrON EN INTERNET 0 RA-MA

programa capaz de localizar, identificar y editar el material almacenado en Internet. El


nombre de Yahoo! es la sigla de Yet Another Hierarchical Oficios Oracle, pero Filo y
Yang dice” qne 410s son autknticos Yahoos, esto es, patanes, nn modo de promover la
confianza entre 10s usuarios noveles. En 1995, Marc Andreessen, cofundador de
Netscape Communications, invit6 a 10s responsables de Yahoo! a mover sus bases de
datos hacia grandes ordenadores emplazados en Netscape. Ambas partes salieron
beneficiadas y, hoy en dia, Yahoo! es una de las empresas m8s rentables de Internet.

Si algo caracteriza a Yahoo! es su archiconocido directorio, con m8s de un mill6n


doscientos mil servidores divididos en decenas de miles de categorias. Los catorce
encabezamientos principales (Arte y Humanidades; Economia y Negocios; Ordena-
dares e Internet; Educaci6n; Entretenimiento; Gobierno; Salud; Noticias y Medios de
Comnnicaci6n; Ocio y Deportes; Obras de referencia; Regional; Ciencia; Ciencias
Sociales; Sociedad y Cultura) se subdivide” una y otra XL. Numerosas referencias
cruzadas entre las diferentes secciones facilitan la navegaci6n. El signo arroba, 0, al
final de un encabezamiento tern&tic0 indica que se trata de una categotia cruzada, es
decir, una categoria que, dados sns contenidos, puede encontrarse en otros niveles y
ubicaciones de1 directorio Yahoo!. Por ejemplo, ~~Peliculasn es nna categotia que se
encuentra en secciones coma <<Entretenimienton, &ociedad y Cultwax o CcArtesn e
in&so en la de CcEconomia y Negociosn por lo que aparece seguida de una arroba.
Junto a las subcategorias el ntimero qne se muestra entre parentesis indica el ntimero
de entradas, servidores o pAgina& que hay bajo cada encabezamiento de materias.
Yahoo!, normalmente, ofrece buenos enlaces hacia cualquier servidor, ya que son 10s
propios creadores de paginas 10s que indizan sus documentos, adscribiCndolos a
categon’as determinadas. Adem&, las btisquedas que no se pueden satisfacer en
Yahoo!, de forma automhtica, son dirigidas al buscador de Inktomi qne cuenta con una
gran base de datos compilada mediante un robot de btisqueda.

El motor de blisqueda interno permite plantear consultas introdnciendo directa-


mente las palabras claw para buscar en toda la base de datos de Yahoo! o en alguna de
sus categotias, si bien es en las btisquedas con tdrminos generales en las que se
obtienen mejores resultados. Para ser principalmente un directorio, sorprende la
amplitud de opciones para personalirar las blisqnedas. Ofrece bcsqueda simple y
avanzada. En la primera se pueden usar 10s operadores 16gicos and, or, not y el
operador de proximidad near. Los signos + y - permiten seiialar palabras obligatorias
y prohibidas respectivamente en la ecuaci6n de bhsqueda. Usa and por defecto,
aunque si con este sistema no se encuentran referencias aplica el operador or. En la
btisqueda avanzada se pueden hater las consultas eligiendo:

1. El tipo de T~CWTOS: P?iginas de la base de datos de Yahoo! o mensajes de


10s grupos Usenet.

2. El m&do de bzisqueda: Por defect0 (Intelligent default), par frase (an


exact phrase match), por presencia de todas las palabras (AND: matches on
0 RA~MA c..trinm 4: LOS DIRECTOR~S DE ~~cmsos DE 1~~0mfmc~~ 59

all words), por presencia de algunas de las palabras o por nombre de


persona (a person’s name).

3 . E l drea d e bCsqueda: c a t e g o r i a s Y a h o o ! (bfisqueda p o r temas de1


directorio) o por piginas web incluidas en el directorio.

4. La fecha de incorporaci6n de 10s recursos a la World Wide Web: un dia,


tres dias, una semana, u” mes, tres meses, seis mesa y cuatro adios.

5. El n~2mero de resultados a mostrar por pantalla: diez, veinte, cincuenta o


cien referencias.

AdemBs, se puede restringir la b6squeda a ““a pate de1 documento (t: titulo, U:
URL) y realirar truncamiento. usando e l a s t e r i s c o , aunque tambiin tnmca
autom8ticamente.

Figura4.4. Pantalla de blisqueda avanzada de Yahoo!

El fonnato de presentaci6n de las referencias recuperadas es estkdar (titulo,


descripci6n de1 contenido y direcci6n). Al realizar ““a btisqueda por palabras claw se
pueden obtener tres tipos de resultados: En primer lugar Yahoo! mostrara las
categorias y subcategotias establecidas en el directorio que responden a la pregunta
fonnulada y que pueden ofrecer acceso a cientos e incluso miles de recursos
relevantes. Por eso se indican primero. Despuks Yahoo! presenta 10s Yahoo! Sites, es
deck, las paginas web de1 directorio de Yahoo que contienen 10s ttkminos de la
consulta indicando en qu6 categorias tem~ticas se han clasificado en el directorio. asi
60 RECUPERAClhN DE LA INFORMACIh EN liVERNET 0 W-MA

pulsando con el r&n en estas categorias se pueden obtener otros recursos


relacionados. Por tiltimo, si Yahoo! no encuentra ninguna pagina web que coincida
con la solicitud de informaci6n, autom&icamente realiza una btisqueda amplia en la
W3 mediante el buscador Inktomi, considerando el texto complete de 10s documentos
y muestra 10s resultados. Cuenta, adem& con la posibilidad de examinar ficilmente
pBginas de actualidad sobre el tema planteado por el usuario a trav& de 10s enlaces
Related newt y Net events.

Yahoo! tiene versiones nacionales para Alemania, Australia, Asia, Brasil,


Canad& China, Corea, Dinamarca, Espafia, Francis, Italia, Jap6n, Nomega, Nueva
Zelanda, R&o U n i d o , Singapur, Taiwan y Suecia, adaptando la interfaz y
permitiendo buscar recursos especificos de esas zonas de cobertura. Adem&, Yahoo!
proporciona acceso a un gran n6mero de servicios complementarios entre ellos:
noticias de titulares de periddicos, resultados deportivos y cotizaciones de balsa;
buscador de “ego&s, empresas, servicios (Yellow Pages); buscador de personas
--direcciones de correo electr6nico o nlimeros de telkfonos- (People Search); pianos
de calles y ciudades, y mapas de estados americanos (Maps); anuncios por palabras
clasificados por ciudades o estados (Classi@eds), etc. Otras opciones complementarias
son: el acceso a una versi6n personalirada de1 direct&o de Yahoo! (my Yahoo!!), que
puede configurarse segtin las preferencias de cada usuario; bcsquedas en la W3 por y
para nirios (Yahooligansj; conversaci6n con otros usuarios (Chats); previsi6n de1
tiempo en todo el mundo (Weather) y tienda de productos Yahoo! (Yahoo! Shop),
entre otros.

Todavia hay Yahoo! se considera el mejor directorio de la red por su sencillez de


manejo, su potencia y versatilidad en las btisquedas y por ser u6de 10s m&s
completes gracias a la gama de 10s servicios a 10s que da acceso: Adecuado tantopara
exploraciones ociosas coma para las investigaciones m8s serias, sus categotias son
suficientemente amplias para temas generales a la vez que correctamente especificas
para intereses mucho m&s concretes. Adem&, su base de datos indizada manualmente
garantiza resultados de gran calidad. Su motor de blisqllcdaqermite tanto operadores
booleanos coma de proximidad, blisqueda p& frases, palabra2 trun~x&s, buscar par-
10s URL o por el titulo, etc. Sus capacidades para realizar consultas sobre cuestiones
muy especificas no son tan impresionantes coma el resto de sus servicios y la pagina
de btisqueda avanzada no mejora sensiblemente 10s resultados de blisqueda. Sin
embargo, pocas herramientas de consulta en Internet pueden decir que cuentan con el
prestigio y la aceptacihn entre 10s usuarios que tiene Yahoo!

4.4.1.2. FUNCIONAMIENTO DE YAHOO!

Yahoo! no indiza el texto complete de 10s documentos que encuentra en la W3.


Recopila 10s enlaces a recursos web de dos formas: por envio de 10s creadores.de las
piginas, mediante la funci6n xafiadir URLn (Add U&5), y a travks de1 robot de
0 W-MA CAPiTULO 4: LOS DIRECTCNOS DE RECURSOS DE INFORMAC16N 61

btisqueda autom&tica, de1 que no se ofrecen m8s dates. En el primer case, la


informaci6n de que dispone para cada pigina es la ofrecida por el creador cuando
envia so URL a la base de datos de Yahoo!: el titulo y una breve descripci6n de1
contenido. En funci6n de esta informaci6n y de1 URL Yahoo! resuelve las blisquedas
planteadas por 10s usuarios. En ambos cases la indizaci6n de cada pigina o seyidor
web es <<manual)>, es decir, 10s expertos de Yahoo! decide” a qu6 categoria o
caikgotias se adscribe un documento. En el case de que el creador de una pagina
remita so URL, es 6ste quien propone en qu6 lugar de1 directorio debe incluirse. En
Yahoo! se da prioridad, a la hors de incorporarlos a la base de datos de1 directorio, a
10s documentos que son un compendia de informaciones: listados de recursos (o
webibliografias), de preguntas planteadas frecuentemente o FAQ (Frecuen~2y Asqued
Questions), indices diversos. etc., par lo que resulta especialmente adecuado en
btisquedas de tipo general.

Como se ha indicado, cuando se plantea la consulta mediante palabras clave


Yahoo! busca en dos espacios diferentes de su base de dates, estableciendo un orden
de prelaci6n. En primer lugar escruta entre las categorias y subcategorias establecidas
en el directorio (Y&IO! Categon’es), desp&s en la base de datos completa (Yahoo!
web sites) y por tiltimo, si no encuentra recursos relevantes para la btisqueda, en
Inktomi. Algunos de 10s factores que afectan a la relevancia son:

1. La cantidad de palabras claw. Los documentos que contienen m8s


palabras clave de la consulta se consideran m&s relevantes y. por tanto, se
sitlian m8s arriba en la lista de resultados que 10s que incluyen menos
t&minos de la ecuaci6n de bhsqueda.

2. La coincidencia exacta de las p&bras clnve. Los documentos en 10s que


se produce una coincidencia exacta entre las palabras claw de la consulta
y las del documento se sithan mejor en el ranking de resultados que
aquellos en 10s que se produce una coincidencia aproximada.

3. D&de se encuentran las palabras claw. Los documentos que incluyen las
p&bras claw en el titulo tienen prioridad sobre 10s que las presentan en el texto
o en el URL.

4.4.1.3. C6MO BUSCAR MEDIANTE YAHOO!

La conexi6n con Yahoo! y con 10s dem& directories y buscadores, se puede llevar
a cabo introduciendo su direcci6n (URL) en la caja de diaologo que aparece bajo 10s
botones principales de1 navegador o desde la opci6n Archive y Abrir coma muestra la
figura 4.4.1.b.. Tambikn podemos acceder a la base de dates de Yahoo! a partir de
cualquiera de las muchas recopilaciones de herramientas de bhsqueda existentes en la
red.
Escriba la direcci6n lnternei de un documento o carpeta.
lntemet Explorer lo abrirk

wwuahoo.cam

Aceptar 1 Cancelar ] Eyminar... 1

Figura 4.5. Conexi6n con Yahoo mediante so URL

Figura 4.6. Conexi6n mediante recopilaciones de herramientas de bhsqueda

Supongamos que somos seguidores de 10s torneos de tenis y queremos localizar las
pQ,inas web dedicadas a tenistas de relevancia mundial. En la park superior de la
pantalla, Yahoo! nos indica en quk categoria nos encontramos en cada momenta.
Como se trata de una blisqueda poco definida optamos por navegar a travks del
directorio. Para ello seleccionamos la opci6n CcDeportes y Ocion y, dentro de &a,
uDeportew. De las diferentes categorias que nos muestra elegimos, sucesivamente,
<<Ten& y &gadoresu, bajo cuyo encabezamiento Yahoo! nos muestra phginas
dedicadas a tenistas. Ya ~610 hay que pulsar sobre cada una para ver la pigina web
completa.
Figura 4.7. BGsqueda mediante categorias de Yahoo: Deportes

Figura 4.8. Categoria temitica <<Jugadores)>

Otra prestaci6n a tener muy en cuenta es que desde cualquiera de las categorias
tematicas se puede plantear una consulta que afecte a esa parte de1 directorio. Por
ejemplo, para localizar informaci6n sobre un tenista determinado, por ejemplo Martina
Figura 4.9. Bhsqueda mediante motor interno de Yahoo!

Figura 4.10. Blisqueda mediante motor interno de Yahoo!


Veamos otra consulta. En este case queremos informaci6n sobre el Empire State de
New York. Se trata de una btisqueda muy especifica de la que quiza no exista una
categotia temBtica propia y, en principio, no sabemos bajo qu6 encabezamiento de1
directorio estarin esas pBginas web por lo que introducimos la ecuaci6n de blisqueda
+“Empire State” +“New York” (precedidas de1 signo + para obligar a que ambas
expresiones aparezcan en la informacidn recuperada y entre comillas para que el
programa localice las paginas web donde aparezca la expresi6n exactamente asi). La
pigina de resultados nos muestra las c&go&s y paginas web resultantes.

Figura 4.11. PBginas web sobre el Empire State

4.4.1.4. BUSCAR EN YAHOO! ESPAr;lA

La organizaci6n y contenido de1 directorio Yahoo! Espafia --~ es diferente al de su


hermano mayor. Como es de suponer, se centra en contenidos especialmente
interesantes para 10s usuarios esptiolesy relacionados con este pais. Gran parte de 10s
recursos web enumerados en Yahoo! Espafia han sido sugeridos por 10s propios
usuarios. El personal de Yahoo! Espafia decide c&no clasificar 10s recursos bajo las
distintas categorias, tras visitar y evaluar todas las paginas propuestas. Al igual que en
el directorio general, el ntimero entre par6ntesis que se muestra junto a cada categoria
representa la cantidad de recursos listados directamente bajo ese encabezamiento
temitico. La @ que aparece al final de algunas categorias, significa que dicho
encabezamiento de mater& est& incluido en m8s de un lugar dentro de la jerarquia de
Yahoo! Espafia.
Las consultas pueden estrecharse o ampliarse, en funci6n de las opciones y la
sintaxis de btisqueda que se seleccionen. Se pueden utilizar las opciones bBsicas de
btisqueda o bien real&r btisquedas m&s complejas, gracias a la sintaxis de blisqueda
avanzada. Los resultados ofrecidos por Yahoo! en espafiol tambiin se organizan en
tomo a tres sectores principales: las categorfas de Yahoo! Espafia, 10s recursos web
recogidos en la base de datos de Yahoo! Espafia, y las piginas web contenidas en el
indice de Inktomi. En el case de 10s dos primeros, Yahoo! EspaRa busca las
correspondencias en su propia base de datos y despuds ordena 10s resultados de m&s a
menos relevantes. Esta versidn national de Yahoo! se ha convertido en uno de 10s
-~ principales y m&s utili~ados~~ortales espanoles---~--.-..~.- -’ -‘--

Veamos algunos ejemplos de bhsquedas. Para buscar diccionarios de espafiol,


coma se trata de una bfisqueda de tipo general, se puede resolver consultando las
distintas categorfas temiticas. De esta manera se elegir& *Materiales de consultau.

-
r

Figura 4.12. Bfisqueda en el Brbol temitico de Yahoo! Espafia

Hay consultas que al ser m8s comptejas, con m8s condiciones, requieren la
utilizaci6n de la pantalla de bbsqueda avanzada. Si, por ejemplo, queremos localizar
noticias actuales sobre el efecto 2000 elegiremos las opciones: (das noticias de boy>>,
<<correspondencia exacta con la frasex, <cl mew (o cualquier otro period0 de tiempo) y
el nlimero de resultados por pagina que nos interese visualizar:
0 RA~MA CAPiTULO 4: LOS DIRECTORIOS DE RECURSOS DE INFORMACIdN 67
68 RECUPERAClONDELAINFORMAClbNENlNTERNET 0 RA-MA

4.4.2. LookSmart

4.4.2.1. ORIGEN Y DESCRIPCI6N DE LOOKSMART

El directorio LookSmart (http://www.looksmar.com) fue creado en lYY5 por el


matrimonio australiano formado por Evan Thornley y Tracey Ellery. LookSmart se
dio a conocer ampliamente cuando el muy famoso y reputado Altavista lo incorpor6
coma su servicio de directorio. Altavista que, hasta ese momenta, se habia
caracterizado por ser un buscador <<pure>>, sin consulta por categorias de mat&as,
incluy6, con gran &xito, el directorio tematico gestionado y mantenido por LookSmart.

LookSmart cuenta con un gran ntimero de usuarios que accede” diariamente a su


directorio donde se puede elegir entre diferentes encabezamientos generales: Infor-
mitica e Internet, Negocios y Finanras, Referencia y Educacibn, So&dad y Politica,
Entretenimiento y Medios de Comunicaci6n, Personas y Conversaci6n, Compras y
Servicios, Viajes y Vacaciones, Deportes y Ocio, Aficiones, Salud y Bienestar, Casa,
Familia y Autos. El directorio incluye en su base de datos cerca de un mill6n de
recursos web y se actualiza diariamente gracias a un gran equipo de editores que
buscan y seleccionan informaci6n de la W3. Cada recurso es descrito, comentado y
evaluado, segtin su calidad, y clasificado en una de las setenta mil categorias tenxiticas
que contiene. Navegando a trav& de las categorias de materias, se localizan 10s
recursos seleccionados por 10s evaluadores de LookSmart. Las paginas web mejores y
m8s relevantes se listan primero y en orden alfabktico. Coma hate Yahoo!, para no
0 RA-MA CAPiTULO 4: LOS D,RECTORlOS DE RECURSOS DE ,NFORMAClON 69

perderse par el directorio, al descender por las ramas de1 tibbol jerirquico, se puede ver
el recorrido que se esta realizando a trav&s de 10s encabezamientos temzlticos, asi
siempre se puede saber d6nde se esta y regresar a cualquier categorfa de las ya
visitadas Gnicamente pulsando con el rat&. Ademris, no hay que olvidar que
LookSmart tambiQ ofrece access a Altavista par si la btisqueda en el directorio no
resulta de1 todo satisfactoria.

Figura 4.16. PBgina principal de LookSmart

El motor de blisqueda intemo de LookSmart recomienda las b6squedas mediante


palabras clave sin utilizar operadores booleanos, delimitadores (+ -). ni comillas,
asteriscos u otros simbolos para definir mejor las consultas. LookSmart ofrece 10s
mejores resultados cuando se plantean btisquedas de tipo muy general, con pocas
palabras clave.

AdemBs de la base de dates general Looksmart mantiene 70 director& regionales


de las principales tieas metropolitanas de Estados Unidos (Your Town). Al igual que
Yahoo!, ofrece access a otros servicios complementarios con dates litiles sobre todo
para 10s usuarios estadounidenses (People Search, Yellow Pages) y otros coma la
blisqueda de grupos de debate de todo el mundo (Discussionsj, de tiendas y productos
(SwumShopper), asi coma de ficheros de audio, video e imigenes. LookSmart cuenta
con version.% para Australia, Canad& Holanda y Reino Unido.
4.4.2.2. FUNCIONAMIENTO DE LOOKSMART

Cuando se plantea una ecuaci6n de blisqueda en la ventana de consulta, en primer


lugar, LookSmart busca recursos web en so propia base de dams. Despuks remite la
bhsqueda a Al&vista que la ejecuta en su extensa base de dams. Una vez completado
el proceso se presentan tres grupos de resultados:

I. El primero muestra las categori’as de LookSmart que responden a la consulta.


Accediendo a cada una se obtiene una coleccidn de recursos sobre ese tema,
evaluados por 10s expertos de LookSmart.

2. El Segundo conjunto contiene referencias a pdginas web compiladas por


LookSmart. Para acceder a 6stas ~610 hay que pulsar en el titulo de cada una.
Adem& de1 titulo, se indica la categoria a la que ese recurso estB adscrito asi
coma la descripcibn que hate de1 mismo el evaluador de LookSmart. Pulsando
en esa categoria se accede a una colecci6n de recursos relacionados.

3. El tercer grupo muestra 10s resultados ofrecidos par Ahvista cuya gran base ae
dates incluye una parte bastante representativa de la Web. Es particularmente
Litil cuando LookSmart devuelve pocas o ninguna referencia. Si en LookSmart
no hay ninguna categoria o recursos web que coincidan con la btisqueda
planteada, 10s de Altavista seran 10s primeros y t’micos resultados mostrados.
Las paginas web que ofrece Altavista no han sido seleccionadas ni evaluadas
por el personal de LookSmart.

LookSmart proporciona acceso a un gran ndmero de recursos y servicios de gran


utilidad. Aunque es infrecuente que no ofrezca ninglin mecanismo para delimitar,
definir y concretar mejor las blisquedas, se trata sin duda, de uno de 10s mejores
directories de la red.

4.4.2.3. &MO BUSCAR MEDIANTE LOOKSMART

Supongamos que estamos buscando informaci6n sobre Internet pero no tenemos


muy claro qu6 es concretamente lo que nos interesa. Este es cl tipo de blisqueda ideal
para plantearla en un directorio. Conectamos con LookSmart y elegimos las categotias
tematicas correspondientes.
Figura 4.17. Categorias temjticas dc LookSmart dentro de Computing->Internet

Una vez aqui podemos vcr 10s temas relacionados con Internet en torno a 10s
c@es LookSmart organiza las pjginas web de su directorio. Elegiremos aquilla
m& acorde con nuestros intereses hasta obtener la informaci6n relevante que nos
72 RECUPERACION DE LA INFoRMACloN EN INTERNET 0 RA~MA

sea de utilidad. Para localizar informaci6n sobre Keanu Reeves podemos


aventurarnos a travh de las distintas categorias tematicas de1 directorio o bien
plantear directamente la consulta en la ventana de la pagina principal de
LookSmart. Este Segundo amino, m&s ripido, es el que elegimos en esta
ocasih La pantalla de resultados, adem& de presentarnos las categorias y las
pziginas web encontradas sobre el actor, remite a servicios tales coma libros,
compras o expertos con 10s que se puede ampliar la btisqueda.
CAPiTULO 5

LOS MOTORES
DE BirSOUEDA PARA INTERNET

Internet y, en especial la W3, no se cre6 en un principio para atender la publicaci6n


y recuperaci6n organizada de informacibn. Su amplio desarrollo y crecimiento
posterior dificultan la localizackk de 10s documentos pertinentes y ha suscitado la
necesidad de contar con herramientas de btisqueda que faciliten esta tarea. Cuando se
busca informaci6n en la red se puede estar ante dos situaciones diferentes: o bien se
pretende explorar el espacio de informaci6n para familixizarse con Cl e identificar
algo de inter& o bien se pretende buscar y recuperar informaci6n relevante de forma
m& concreta (Chen 98). Esto es lo que, con ciertos matices si se quiere, se denomina
respectivamente browsing -una estrategia de blisqueda exploratoria, no planificada y
casual especialmente apropiada para problemas ma1 definidos y coma una altemativa a
la estrategia de bkqueda compleja- y bhsqueda por palabras clave, donde se
establece, de forma m&s precisa, la necesidad de informacidn.
Los <<motores de btisqueda,, o nbuscadoresn son las herramientas de consulta
que permiten formular preguntas en la W3 y localirar la informacidn que se necesita.
Sin embargo, 10s antecedentes de 10s buscadores de hoy fueron simplemente listados
de direcciones de recursos y documentos electr6nicos de la red que alguien, por
iniciativa particular o institutional, pensaba que podian ser de inter& para otros
internautas. Un repaso de la historia de cada buscador permite comprobar c6mo, en su
m a y o r parte, comenzaron coma p r o y e c t o s d e investigaci6n o i n c l u s o coma
divertimento, de estudiantes graduados, profesores de universidad, ingenieros,
programadores de sistemas, etc. aunque, m&s tarde y para lograr mantenerse, hubieron
de pasar a manes de empresas privadas o bien surtirse de fondos destinados a la
investigaciSn. Fue el creador de la W3, el Laboratorio Europeo de Fisica de Particulas
(CERN), una de las instituciones pioneras al incluir en su servidor lo que se dio en
llamar la ccbiblioteca virtual de la telaraiia de la inforrnaciku (World Wide Web
74 RECUPERACION DE LA INFORMACION EN INERNET ‘?JRA~MA

Virtual Librmyl, una lista alfabCtica de mater&, que atin se mantiene y actualiza, con
enlaces a las paginas web correspondientes. Uno de 10s mejores intentos foe, sin duda,
The Mother of All the Bulletin Boards (MAAB), que pretendia generar on indice
global de recursos en la W3. Funcionaban de la siguiente manera: 10s creadores de
documentos en la red o 10s administradores de servidores enviaban la informaci6n
relativa a sus paginas web para que se incorporara a esta gran base de dams, y a
coatinuaci6n 10s g&ores de1 MABB trataban de in&jr cada n~evo registro utilizando
una clasificaci6n tematica preestablecida.

En esta linea, David Filo y Jerry Lang pusieron en marcha el directorio David and
Jerry’s Guide to the Web, con el fin de clasificar 10s recursos informativos de la W3.
M&s tarde, modificarian so nombre por el de Yet Another Hierarchical Ofsicious
Oracle, por cuya sigla -Yahoo!- es hoy mundialmente famoso siendo uno de 10s
servidores (sites) m8s visitados. Gracias a las aportaciones de miles de usuarios -y
del personal que trabaja en este servicio- el catBlogo mantenia, y mantiene, un
enorme listado bien ordenado de temas y enlaces hacia paginas web.

A pew de 10s esfuerzos por compilar y organizar 10s recursos que se iban
incorporando a la creciente telarafia, sin duda ahn quedaban muchos documentos por
cubrir y descubrir. Para llenar este vacio surgieron 10s motores de btisqueda o
buscadores propiamente dichos. !%tos cuentan con robots de btisqueda -programas
<<inteligentesx que localiran automz?ticamente 10s documentos presentes en la red- y
potentes programas de indizaci6n -que indizan aut6nomamente cada pagina
formando inmensas bases de dam-. La primera genera&m de buscadores hate so
aparici6n entre 10s adios 1993 y 1994. De 10s primeros destacaban WWWWorm y
WebCrawler. Sin embargo, tambiin por esas fechas comenzaron a darse a conocer
herramientas m8s potentes, coma Altavista, Excite, Infoseek, Lycos y Opentext.
Algunos de 10s primeros buscadores han desaparecido, otros han reorientado sus
c o n t e n i d o s y otros s e h a n afianzado coma 10s m8s i m p o r t a n t e s . Adem&,
constantemente se crean sistemas de blisqueda cada vez m5s avanzados, con interfaces
de consulta sencillas y funcionales.

La creciente cantidad y. sobre todo, calidad de las prestaciones de bhsqueda,


contribuyeron desde un primer momenta a hater estas herramientas imprescindibles
para 10s internautas. En 1996 se produce el despegue definitivo de 10s programas
buscadores, que comienzan a recabar la atenci6n de publicaciones de1 campo de la
InformAttica, de revistas profesionales de muy diversos gmbitos, de la prensa general,
etc. Las continuas mejoras (pm ejemplo, la bhsqueda por conceptos o utilizar el
&dice de popularidad,, de 10s documentos coma indicador de so relevancia) hacen
que hoy se hable de una nueva generaci6n de buscadores, aunque sus cambios y su
evoluci6n han sido y son constantes. Su &to y so calidad dan lugar a una variada
gama de herramientas de consulta muy bien acogidas por 10s usuarios, tales coma 10s
servicios especializados, 10s metabuscadores, 10s agentes personales de btisqueda, etc.,
que se abordan m8s adelante.
Aunque la meta de 10s servicios de blisqueda en la W3 es facilitar a 10s usuarios el
acceso y la localiraci6n de 10s recursos de la red, afin les queda un large camino por
recorrer para ser totalmente satisfactorios. La evoluci6n de 10s sistemas de btisqueda
presentes en la telaraiia manifiesta una tendencia a mejorar la recuperaci6n y la
interaccibn usuario-sistema. Esto hate que, con cierta frecuencia, 10s buscadores
lancen nuevas versiones que incorporan novedosos y cada vez m&s sofisticados
servicios y prestaciones para el usuario.

5.1. iQUti ES UN MOTOR DE BtiSQUEDA?: ESTRUCTURA Y


FUNCIONAMIENTO

La red ha evolucionado hacia lo que podria considerarse un dikmico y, en


ocasiones, ca6tico alma&n donde albergar informaciones muy diversas en contenidos,
relevancia y utilidad. Par el momenta, gran parte de la responsabilidad en la bhsqueda
y localizaci6n de la inform&% dispersa en la red recae en 10s motores de btisqueda o
buscadores, a 10s que hemos aludido anteriormente. Todos 10s buscadores presentan
una estructura similar constituida principalmente por la base de datos, el programa de
indizaci6n, el robot de btisqueda y la interfaz. El robot o arafia es el programa que
cruza la Web movikndose de un documento a otro, descendiendo progresivamente a
travks de 10s hiperenlaces. El programa de indiraci6n se ocupa de indizar la
informaciSn de 10s millones de paginas web ubicadas en servidores conectados a la red
formando asi enormes bases de datos a las que accede” 10s usuarios a travks de la
interfaz de1 buscador.

Figura 5.1. Estructura de un motor de blisqueda

51.1. La base de datos

La base de datos de 10s buscadores esta constituida principalmente por un indice de


palabras, frases y datos asociados a la direcci6n de cada recurso (URL), si bien cada
vez con m& frecuencia incorporan tambikn programas, imhgenes, archives, etc. La
lista de elementos indizados en la base de dates varia de una herramienta de bfisqueda
a otra. Algunas indizan cada p&bra de las paginas web, incluyendo el URL y el texto
de algunas metaeriquetas coma author, title, keywords o description. Esta informaci6n
puede mejorar sensiblemente la eficacia en la recuperaci6n y en la ordenaci6n de 10s
resultados o ranking. Otros indizan linicamente las p&bras de aparici6n m&s
frecuente, o las incluidas en ciertas etiquetas, o ~610 las primeras p&bras o lineas de
10s documentos HTML. Pueden incluir o no las p&bras vacias de significado coma
10s determinantes, preposiciones y conjunciones aunque, si las elimina, tambien
pueden considerar coma vacias las p&bras de frecuencia muy alta, coma Web,
Internet, information, etc.

Estas bases de datos contienen, pues, elementos de 10s documentos originales y so


direccidn o URL en la red de forma que, realmente, 10s usuarios de estas herramientas
no accede” directamente a la W3 -ni la consultan integramente-sino, tinicamente, a
una parte de ells, la incluida en la base de dates. &a se actualiza con una periodicidad
variable, que varia de 24 hams a varias semanas, por lo que en ese lapso de tiempo se
produce” cambios en la W3 que no se registran en la base de dates. Asi, puede haber
informaci6n alin no incluida o direcciones que han cambiado o desaparecido, etc.

La principal estrategia seguida por 10s buscadores para compilar, seleccionar y


organizar la informaci6n que incluyen en sus bases de datos es el use de robots o
arafias. Pero &a no es la linica forma de recopilar recursos puesto que, adem&,
habitualmente existe la posibilidad de notificar al servicio directamente, por pxte de
10s propios creadores de 10s documentos y. en ocasiones, tambien de 10s intemautas, la
existencia de una nueva pagina web enviando la direcci6n para que la incluyan en la
base de dates. Algunos buscadores de car&cter generalista, coma Infoseek, establecen
subconjuntos de bases de datos de recursos seleccionados y w&ados por expertos o
de aquellos m8s populares. Esto ahorra tiempo y esfoerzo al navegante, ya que ofrecen
acceso a las mejores paginas de la red con un comentario, descripci6n y. en ocasiones,
hasta una ponderaci6n de so calidad. Otros buscadores, coma Northern Light,
proporcionan acceso a fuentes de informaci6n no gratuitas. Muchos, adem& de indizar
paginas HTML, incluyen noticias de 10s grupos Usenet, recursos gopher y. a veces,
tambikn ficheros ASCII, VRML, SGML, PDF, etc.

Algunos de 10s aspectos relacionados con las bases de datos de 10s buscadores que
debemos considerar tienen que ver con so tamafio, la disponibilidad y la duplicidad de
10s recursos recuperados, asi coma el posible solapamiento de contenidos entre 10s
diferentes servicios de biisqueda que operan en la W3 (Notess 97):

a) Tamaiio: Medir el tam&o de las bases de datos de la W3 es mucho m8s


complejo que en otros sistemas de recuperaci6n de informaci6n, cada servicio
de btisqueda informa a sus usuarios sobre la extensi6n de so base de datos e
intenta demostrar que &ta in&ye un mayor volume” de dates que las de sus
competidores. El principal problema es que no se ha establecido un patr6n iinico
0 RA~MA CAPfTULO 5: LOS MOTORES DE BljSQUEDA PARA INTERNET 77

de medidas, sino que se usan formas distintas para indicar cu6ntos recursos se
indizan. Las utilizadas con m8s frecuencia son:

1. Nlimero de URLs contenidos en la base de data. Este dato puede ser


engaiioso. Lycos, por ejemplo, incluye muchos URL aunque no indiza
el texto complete de todos 10s documentos.

2. Tammio en megabytes. Tampoco es on dato demasiado fiable, ya que


una b a s e d e d a t o s mal disefiada p u e d e tener gran tamafio y poca
informaci6n.

3. Nlimero de pdginas web individuales. Aunque parece el sistema m&s


adecuado, tambikn puede crear problemas. Habria que discernir cuantas
estan repetidas y si las paginas localizadas en servidores duplicados
(mirror sites) se consideran o no la misma pigina.Por otra parte, estas
paginas pueden desaparecer, modificarse o reubicarse sin que la base
de datos lo refleje inmediatamente.

La medida m& real, con las salvedades que se han indicado, es aquella que toma
en consideraci6n el niimero de paginas completamente indizadas y consultables
aunque, adem& 10s servicios de btisqueda debetian ofrecer tantos datos cuantitativos
coma fuera posible: 10s URL, documentos binaries coma sonidos e imBgenes, mimer0
de bytes de documentos indizados, nlimero de palabras indizadas, servidores, etc. De
10s m&s de ochocientos millones paginas web presentes en Internet, segiin estima-
ciones, 10s buscadores abaxan ~610 una proporci6n que puede oscilar sensiblemente
dependiendo de1 servicio de btisqueda de1 que se &ate. En cualquier case, el tamaiio de
la base de dates, aunque hate el servicio atractivo a 10s usuarios, no es determinante
de su calidad. Por esa raz6n surgen servicios m8s pequeiios pero con bases de datos
m8s selectivas y especializadas, que pueden ser la mejor ayuda para muchas de las
consultas.

b) Disponibilidad y duplicidad de las piginas: Una vez realizada la consulta en el


buscador y obtenida la lista de resultados probablemente relevantes, el usuxio
ha de superar otro obstkulo: la disponibilidad de las paginas recuperadas, ya
que con frecuencia no se puede acceder a ellas, un claro sintoma de1 desfase
entre la base de dates y la W3 ((real)). Otro indicador de la utilidad de 10s
resultados es el nlimero de registros duplicados que se obtienen. lktos se deben
a la existencia de URL m6ltiples que sefialan al mismo servidor -piginas
individuales o enlazadas residentes en el mismo ordenador- o a la presencia
de1 mismo recurso en mliltiples localizaciones diferentes -10s espejos o
mirrors sites- que contribuyen a descongestionar el trifico en la red, pero
reducen el ntimero total de referencias disponibles y titiles para el usuario
(Notess 97).
Figura 5.2. Direcci6n no valida u obsoleta

c) Solapamiento de resultados: Todos 10s buscadores generales, supuestamente,


indizan la W3 completa. Sin embargo, el nivel de solapamiento entre las bases
de datos de 10s principales buscadores generales no es tan acentuado coma
cabria esperar y, frecuentemente, al plantear la misma consulta en varies
servicios de blisqueda se obtiene un bajo indice de resultados coincidentes. Esto
es debido a que cada herramienta de consulta cuenta con un robot y un sistema
de indizaci6n propios que utilizan diferentes algoritmos de funcionamiento y
generan, por tanto, bases de datos distintas.

51.2. El programa de indizacih

Las herramientas de blisqueda disponibles en la W3 utilizan distintos ktodos para


indizar 10s recursos que incorporan a sus bases de datos. Por ejemplo, la indizaci6n
puede contemplarse en el nivel submorfokgico, por palabra clave y por conceptos. La
indizaci6n en el nivel submorfokjgico, esto es, sin an&is morfohjgico, sintktico o
sem&ntico, ofrece un m&odo muy flexible para la recuperaci6n. Asi se indizan las
fuentes de informaci6n coma p&ones de bits o bit patterns de manera que text&
sonido e imigenes en movimiento, pueden indizarse y recuperarse usando la misma
forma de representaci6n. Algunas herramientas de consulta comienzan a incorporar
sistemas coma, por ejemplo, Excalibur V i s u a l RetrievalWare, q u e ofrecen
recuperaci6n de imzigenes y de texto. Las tknicas estadisticas de recuperaci6n de
informaci6n ahora incorporadas a una amplia gama de motores de blisqueda se basan
en dos m&odos principales de representaci6n e indizaci6n de la informaci6n:

1. Zndizacidn par p&bra claw. Se crean indices inverses de raices y pala-


bras clave, direcciones, ubicaci6n y frecuencia de apariciones. Este
enfoque, esencialmente morfolSgico y estadistico, basa la recuperaci6n de
informaci6n en la similitud formal de las p&bras, y las estadisticas de so
presencia en documentos y colecciones de documentos. Es la forma m8s
comhn de indizaci6n de textos en la Web. Como se ha vista, algunos
buscadores obtienen las p&bras clave de determinados campos, las
metaetiquetas HTML, pero la mayoria indiza el texto complete de las
piginas, incluyendo o no las p&bras vacias.

2. Indizacidn par conceptos. Existen varies procedimientos para construir


bases de datos basadas en conceptos, algunas de ellas muy complejas y
basadas en sofisticadas teorias lingiiisticas y de inteligencia artificial. En
otros cases, coma Excite, se basan en una aproximacidn num&ica, calcu-
lando la frecuencia de aparici6n de ciertas palabras significativas. A partir
de an6lisis estadisticos el buscador determina qu& conceptos aparecen jun-
tos o relacionados en textos que se centran en on tema concrete. Mediante
este sistema se pueden recuperar recursos que tratan un tema dada, incluso
aunque las palabras incluidas en el documento no coincidan formalmente
con las de la pregunta.

Otros sistemas, coma Dr-Link, realiran un analisis m8s profundo e indizan a nivel
sintictico, semzlntico e incluso pragmitico. Sin embargo, el mayor nivel de anBlisis
semintico, posiblemente sea el de 10s sistemas que ofrecen informaci6n evaluada,
revisada e indizada por humanos, que se presenta en directories tem&icos coma 10s de
Yahoo, LookSmart, Excite o Infoseek.

51.3. El robot de bhsqueda: el protocolo de exclusih de robots

Los robots de btisqueda, componentes esenciales de 10s buscadores, estan


especificamente diseriados para localizar informaci6n disponible en forma de
diferentes recursos en la W3. El robot actualiza la base de datos visitando
peri6dicamente las piginas para comprobar si ha habido alguna modificaci6n o si atin
siguen activas incluso, pueden caprender>> a visitar y reexaminar con mayor frecuencia
aquellos servidores que cambian rapidamente o que son citados en otras muchas
piginas. El funcionamiento de 10s robots o arafias, elemento fundamental de la
estructura de un buscador, no siempre ha respondido a 10s mismos par8metros. Al
principio ~610 obtenian las p&bras de determinadas partes del document” web, coma
el titulo o la descripcidn; luego, de1 document” complete, aunque, eso si, optando de
forma mayoritaria por eliminar de la base de datos Pas palabras consideradas vacias o
SO RECUPERACl&V DE LA INFORMACldN EN INTERNET 0 RA-MA

bien las muy frecuentes; posteriormente comenzaron a hater use de la informaci6n


recogida en las metaetiquetas HTML, etc.

Las araf~as utiliran ‘diferentes estrategias para rastrear la red y recopilar la


informaci6n que, una vez indizada, entra a formar parte de la base de datos de1
buscador. Si bien las empresas o instituciones encargadas de1 mantenimiento de estos
programas no suelen dar a conocer el algoritmo exacto que utilizan 10s robots para
operar en el ciberespacio por ser secrete comercial, se sabe al menos que algunos
utilizan un mModo probabilistico para viajar por la Web sin sobrecargar 10s servidores,
incluyendo en su base de datos paginas muy citadas o con las direcciones @ath) m&
cortas, ya que suponen que &as corresponden a 10s directories principales de una
colecci6n de recursos. Esta Gltima premisa no siempre se cumple, con lo que el robot
puede incurrir en imperdonables olvidos al no localizar documentos que quiza Sean de
gran importancia para 10s usuarios. Otros optan por realizar una primera btisqueda
npor extensikw para asegurarse de que en su indice estin al menos representados
tantos servidores coma sea posible, aunque no indicen todas sus piginas. Este tipo de
robots, cuando recuperan un URL, examinan sus enlaces directos o internos, es decir
10s ubicados en ese mismo servidor, asi coma 10s externos y crean una cola de espera
para volver a examinar cada recurso o bien para obtener una muestra representativa de
10s mismos.

Esta gran actividad de 10s robots en la red provoca ciertos problemas coma la
sobrecarga a la que se ven sometidos algunos servidores. Desde que se populariz6,
Internet se percibe coma un recurso gratuito y libre pero, a medida que se incorporan
m&s usuarios y se amplia su infraestructura y alcance, se pane de manifiesto que no se
trata de un recurso ilimitado y que se impone la necesidad de regular ciertos aspectos
de la misma. Sin entrar en consideraciones m&s profundas, tales coma la conveniencia
o no de promulgar una legislaci6n especifica, se hate inexcusable, al menos, esta-
blecer unas normas bkicas de actuaci6n. En el case de 10s fores de discusi6n o grupos
de debate (Usenet) y en el de las listas de correo se han generalizado unas pautas para
fomentar el respeto y el comportamiento responsable en la comunicaci6n, las
denominadas netiquetas o netiquette. Los robots, por su condici6n y finalidad, pueden
alterar en gran medida el equilibria en la red, consumiendo excesivos recursos y
creando demasiadas dificultades a 10s administradores de 10s servidores. Se pone asi
de manifiesto la necesidad de una e’tica en la W3. Por lo tanto, a pesar de todas las
ventajas de 10s robots de b6squeda de informaciSn, kstos corren el riesgo de suponer
un obstzkulo para el 6ptimo funcionamiento de la red, ya que pueden presentar
algunos peligros e inconvenientes que pasamos a enumerar a continuaci6n:

1. Sobrecarga de 10s recursos y servidores de la red: La medida de la cantidad de


informaci6n que puede transmitirse fisicamente a trav& de una linea de
transmisi6n en un periodo de tiempo determinado se denomina ancho de banda
y. normalmente, se mide en bits par segundo (bps). Pam trabajar, 10s robots
necesitan un ancho de banda considerable. En primer lugar, porque acthan de
forma continuada en periodos de tiempo prolongados y porque, para acelerar el
O&&M4 0wiruLo 5: ,,os M”T”RESDE BljSQUEDA PARA NrERNET 81

proceso, muchos robots realizan una recuperaci6n en paralelo, de tal modo que
incluso parks remotas de la red pueden acusar excesiva tensi6n si el robot hate
un gran nlimero de recuperaciones en un breve periodo, lo que se conoce coma
((fuego r&pido>> o rapid fire. Este bombardeo al que se ven sometidos 10s
servidores debe evitarse, puesto que provoca una escasez temporal de ancho de
banda para otros uses y usuarios, siendo aconsejable un mktodo donde la
recuperaci6n se realice de forma m8s pausada. Adem&, es recomendable que
10s servicios de blisqueda lance” sus robots en 10s mementos en que 10s
servidores y la red presentan una menor sobrecarga, es deck, fuera de lo que se
denominan las horas punta electrirnicas. fistas suelen coincidir con las horas
centrales de1 dia y con 10s dias laborables

2. Sobrecarga en la actualizaci6n y mantenimiento: Aunque las bases de datos


gestionadas por robots se actualizan autom&icamente, no exite alin un
mecanismo realmente eficar que controle 10s cambios producidos en la W3,
esto es, no se puede determinar de forma directa y fiable la elimink&,
modificaci6n o reubicaci6n de 10s recursos. Esta circunstancia obliga a que la
tarea de actualiraci6n contribuya, una vez m&s, a sobrecargar el trafico en la
red. Los creadores de robots se defienden de estas acusaciones sefialando que, al
posibilitar el acceso directo a las referencias de 10s documentos en la W3,
suprimen la necesidad de navegar de enlace a enlace hasta el destino deseado.
por lo que se reduce el tiempo de conexi6n de 10s usuarios.

3. Mala implementaci6n: En el disefio e implementaci6n de1 robot ha de ponerse


especial cuidado en evitar errores o problemas en la ejecuci6n de1 programa que
perjudiquen a otros participantes en el proceso de bfisqueda y recuperaci6n de
informaci6n en la W3, desde 10s ordenadores o servidores, hasta 10s recursos
web, pasando por 10s propios usuarios.

Para intentar minimizar estos problemas, en 1993 Koster enunci6 unas directrices,
Guidelines for Robots W&m, ubicada en el URL http://info.webcrawler.com/m&/
projects/robots/guidelines.html donde, a modo de orientaci6n, se indicaba a sus
creadores 10s dafios que podian causar al lanzar su robot a la red. El documento, que
two amplia difusi6n, ofrecia algunas sugerencias coma las siguientes:

1. Reconsiderar la necesidad de un nuevo robot. Los robots consumen recursos a


nivel mundial, quiziya haya uno que realice ese mismo trabajo y que se pueda
utilizar sin necesidad de wear otro nuevo. Si finalmente se decide abordar el
proyecto, no debe plantearse que recorra la Web completa, sino que ~610 llegue
a unos pocos niveles de profundidad.

2. Ser responsable: Anunciarse, identifcarse e informar. Quienes mantienen 10s


servidores deben poder identificar el robot y contactar fkilmente con el
responsable de1 mismo. AdemBs, un nuevo robot debe anunciarse enviando un
mensaje al fore Usenet comp.infosystems.W3.providers, o bien, a la lista de
corx robots@nexor.co.uk, o solicitar su integracidn en la base de dates de
robots activos The Web Robots Database de Martijn Koster http:l/info.
webcrawler.comlmaWprojects/robots/active.html. Por tiltimo, hay que informar
a 10s gestores de 10s sistemas, ya que quiz6 Sean 10s primeros en detectar alglin
error en el funcionamiento de1 robot y puedan asi comunictiselo a su creador.

3. Realimr comprobaciones previas enficheros de data locales. Para comprobar


la efectividad de un prototipo que puede tener un comportamiento errdneo, se
deben probar exhaustivamente en 10s servidores locales antes de lanzarlo a la
red.

4. Modem- el c~n~urn~ de recursos. Una buena politica que se puede seguir es


evitar el fuego rapido y eliminar recuperaciones redundantes. Moderar la
velocidad y frecuencia de acceso a cualquier servidor y recuperar tinicamente
aquello que realmente pueda gestionar -par el tipo y por el v&men de
dam- son medidas razonables que todos 10s robots deberian respetar.

5. Supervisar el funcionamiento. E l responsable de1 r o b o t $zbe analizar


continuamente las conexiones a 10s servidores, corregir 10s poslbles errores y
estar preparado para responder y actuar cuando sea necesario.

6. Cotnpnr-tir los resultados. La informacibn generada por el robot debe ser de


carhcter pliblico y estar a disposiciSn de cualquier usuario. Los robots utilizan
gran cantidad de recursos, lo que se justifica si el resultado de sus operaciones
pueden disfrutarlo todos aquellos que sufren las consecuencias negatkas, es
decir, todos 10s usuarios de la red. Deben informar a 10s administradores de 10s
servidores de 10s enlaces hipertextuales obsoletes y deben ofrecer la posibilidad
de consultar IOS recursos que, en el transcurso de su actividad, hayan localizado.

Los servidores de informaci6n en la W3 no han de resistir obligatoriamente las


batidas de 10s robots sin m&s, sino que tienen la opci6n de protegerse de estos agentes.
Para evitar 10s perjuicios de la actuaci6n de 10s robots, Koster propuso en 1994 una
NOUUI pam 10 E.~clusidn de Robots http://info.webcrawlerxom/mak/projectslrobots/
robots.html. El protocolo se basa en la presencia de un fichero Irobots.txt, localizado
en el directorio raiz del servidor web para indicar a 10s robots a qu& partes de su
servidor no pueden acceder, Los robots que se adhieren a esta norma leen la
informacidn registrada en el fichero para saber si su acceso est& autorizado y si se han
establecido restricciones sobre alglin conjunto de ficheros en la estrwtura de
directories. Esta norma es fruto de un acuerdo de 10s miembros del fore electr6nico
robots-request@nexor.co.uk adoptado en junio de 1994. A pesar de su amplia
repercusidn coma discusi6n tehrica, su aplicacidn real es m&s bien reducida, ya que
~610 una minima parte de 10s servidores visitados por 10s robots contienen el fichero
/robots.txt. lo cual puede deberse a:
0 RA~MA CAPfTULO 5 : L O S MOTORES D E BThQUEDA P A R . 4 I N T E R N E T 83

1. Un desconocimiento de la norma por parte de quienes mantienen 10s


servidores conectados a la red y de 10s creadores de recursos web.

2. Que realmente no sea necesario vetar el acceso de las arafias a ninguno de


10s ficheros de esos documentas.

3. Que la norma sea un tanto ambigua y confusa y que sea necesario estudiar
m8s a fondo su eficacia y mejorarla.

El use de metaetiquetas -etiquetas HTML incluidas en 10s recursos web-


pretende mejorar la recuperaci6n al ofrecer mb informacidn sobre 10s recursos
presentes en la telaraiia. Los robots pueden reconocer las metaetiquetas que 10s
creadores de pBginas web incluyen en estos documentos, en Ias que se describe su
contenido incluyendo las p&bras clave m&s representativas de1 mismo. identificando
al autor, etc. De ese modo puede controlarse mejor c&no indiza la pigina web un
buscador, evitando 10s errores y desviaciones que la indizaci6n de1 contenido textual
integro de una pigina pudiera provocar. Para ello estan en marcha 10s proyectos
destinados a normalizar la descripcidn de 10s recursos en Internet y a orientar a 10s
creadores de p&&s proponiendo la inclusidn de unas etiquetas que faciliten la
catalogacibn -tanto manual coma automatizada-de 10s documentos en la red. Dos
de las iniciativas m&s reconocidas son las llevadas a cabo por el grupo de trabajo de
Dublin, Ohio (OCLC/NCSA Metadata Workshop) y por el de Warwick (The Warwick
Metadata Workshop).

5.1.4. Interfaces de recuperacibn

Ya en 1990, en un seminario interno de ESRIN --organism0 perteneciente a la


Agencia Espacial Europea- sobre interfaces de usuario para sistemas de informaci6n,
se Ileg a la concIusi6n de que 10s sistemas de informaci6n cientificos de pr6xima
generaci6n serian para use direct0 de 10s usuarios finales, capaces de soportar
poblaciones de usuarios heterogCneas y de ofrecer respuesta directa a sus problemas
de informaci6n mediante el use de una completa variedad de fuentes de informaci6n y
la integracidn de todas las estrategias de manipulaci6n de la informaci6n necesarias
para alcanzar 10s objetivos de1 usuario (Belkin 91). Las interfaces de muchas
herramientas de bfisqueda de Internet, sobre todo en el entomo de la W3, presentan
esta tendencia.

Una de las causas de fracas0 y frustraci6n en las btisquedas se produce cuando el


usuario desconoce o no domina suficientemente el lenguaje de interrogacidn de1 motor
que estj utilizando. En ese case, encuentra grandes dificultades para localizar la
inform&& que necesita. Si la consulta no se formula de manera adecuada,
aprovechando las prestaciones de1 sistema, &ste responde con gran nlimero de
referencias irrelevantes produciCndose lo que se denomina rlrido o, por el contrario, no
localiza ningtin documento pese a que existan recursos litiles y pertinentes, lo que se
denomina silencio. No obstante, no es el usuario el linico responsable de que el
proceso de biisqueda resulte insatisfactorio.

Una parte fundamental de las herramientas de consulta de la W3 es la interfar, que


hate posible la interacci6n usuario-miquina y que esta disefiada para usuarios
inexpertos en la blisqueda y recuperaci6n de informaci6n, por lo que suele ser m&
sencilla e incluir m5s ayuda. La documenfaci6n ofrecida, es deck la informaci6n que
presenta el servicio sobre su estructura, funcionamiento o prestaciones en forma de
pantallas de ayuda y la sencillez de use de la interfaz desempefian un importante papel
en la selecci6n de buscadores por park de 10s usuarios. En cuanto a la descripci6n de
sus bases de dates, no siempre se ofrecen detalles sobre su cobertura, periodicidad de
actualizaci6n, sistema de indizaci6n o el funcionamiento de su robot. Sin embargo,
esta informaci6n es crucial para decidir si &se es el servicio de blisqueda que interesa
en ese momenta.

La orientaci6n en la realizacidn de las biisquedas se lleva a cabo mediante


pant&u de ayuda. Todas las herramientas de consulta incluyen, en mayor o menor
medida, pantallas de ayuda aunque, a vexes, ksta se encuentra dispersa en diferentes
opciones y apartados. No siempre es fzkil encontrarla y la mayoria de 10s buscadores
no ofrecen ayuda en contexto, que puede resultar de gran utilidad cuando se presenta
alguna duda o problema. Es importante que se indiquen claramente todas las
posibilidades de bhsqueda con que cuenta, pero tambikn las limitaciones. Tambikn
resultan de gran ayuda 10s ejemplos de blisqueda, ya que, aunque las explicaciones
scan claras, lo mk ilustrativo y litil es indicar ejemplos sobre el modo de plantear las
consultas correctamente. A veces incluyen una secci6n de ududas frecuentew
(Frecuently Asked Questions, o FAQs), que presenta, mediante un sistema de
preguntas y respuestas, las cuestiones y problemas que pueden plantearse de forma
m& habitual en relaci6n al uso de1 servicio de blisqueda, pero, desgraciadamente, no
todos cuentan con este complemento a la ayuda.

Los memk desplegables hacen que la interfaz sea mucho m& intuitiva y facilitan
las blisquedas, por lo que muchas herramientas de consulta han ido incorporando
opciones presentadas de esta manera. Par otra parte, 10s gr~$‘?cos contribuyen a una
presentacibn agradable de1 servicio. Los hay que, desde el principio, optaron por
propuestas llamativas y ciertamente arriesgadas, corn0 Hotbot, hasta 10s que se
mantienen en un nivel de serena austeridad, coma Magellan. Estas presentaciones,
pensadas para gustos muy diversos, no son nunca determinantes para decidir la valia
de un buscador pero, desde luego, influyen en la primera impresi6n que se obtiene de1
servicio.

La interfaz de consulta estructura la btisqueda en una versi6n simple y otra


avanzada, que ofrece m& prestaciones. Es recomendable que este tipo de servicios
presenten estas dos opciones: la simple, para bkquedas sencillas y/o usuarios no
expertos, y la avanzada, pxa ecuaciones de bkqueda con un planteamiento m&s
complejo. De este mode, la pantalla no se sobrecarga innecesariamente de informacidn
y opciones, ni se confunde al usuario que hnicamente pretende realize una btisqueda
simple. La opci6n simple de bhsquedas es la que aparece por defect0 cuando se
conecta con el buscador. Se presenta coma una ventana de consulta sencilla que
permite introducir una expresi6n de btisqueda formada por on tQmino o frase, o bien
varies tkminos unidos por 10s operadores 16gicos correspondientes. La pantalla de
btisquedas avanzadas, para usuarios m& familiarizados con las posibilidades de1
buscador, se presenta cuando se pulsa el hiperenlace advanced search o powered
search.

Dado el alto indice de sobrecarga que sufren las herramientas de consulta de la W3


debido a las continuas visitas de 10s usuarios de la red, se hacen duplicados o mirror
de so base de datos y se ubican en otros servidores dispersos por la red. Es deck, 10s
duplicados son una copia exacta de1 servidor original, que se sitfia en otros paises o
zonas para descongestionar la carga de1 servicio y hater m8s fluid0 el trSco en la red.
A veces se presenta la interfaz, principalmente las diferentes opciones de blisqueda y
las pantallas de ayuda, traducida a varias lenguas para que 10s internautas puedan
acceder m8s fkilmentea 10s recursos de la W3. En otras ocasiones, se trata de
verdaderas versiones nacionales o regionales donde se recogen especialmente infor-
maciones relacionadas con esa zona geografica o de particular inter& para 10s usuarios
de la misma y que en algunos cases son versiones reducidas de la base de datos
original.
La capacidad de personalizar y ajnstar la interfaz a 10s gnstos concretes de1 usuario
contribuye a que kste, al adaptarlo a sus preferencias, se identifique con el servicio de
bfisqueda utilizado y obtenga mayor grade de satisfaccidn. Para recoger las prefe-
rencias de las personas qne accede” a estos servicios en la realizaci6n de las btis-
quedas, kstos han de configurar las btisquedas determinando sus intereses respect0 a
10s resultados. El programa, mediante cookies, o el usuario, mediante bookmarks
(enlaces favorites), almacenan esta informaci6n de manera que no ha de indicarse
nuevamente cada vez que se solicite y ejecute una consulta

5.2. PRINCIPALES CABACTEtiSTICAS DE LOS BUSCADORES


WEB
La fuerte competencia entre 10s diferentes buscadores web propicia que sus
creadores desarrollen nnevas propuestas pxa aproximarse, tanto coma sea posible, al
gusto de 10s cada vez m&s exigentes usuarios. Aunque la variedad y calidad de las
posibilidades ofrecidas por cada uno hate que estas herramientas de consulta difieran
entre si, es cierto qne hay un gran nivel de coincidencia en relaci6n con algunas de las
principales prestaciones qne m8s comtinmente presentan:

1. Las combinaciones booleanas, mediante 10s operadores Mgicos, y la blisqueda


por frases son comunes y e&n bastante generalizadas. A veces, las relaciones
Mgicas son automjticas o implicitas (cuando no se indica ninguno, 10s
programas utilizan el operador por defecto), annque puede ser dificil para el
usuario determinar cukdo se realiza y si se utiliza de forma automzltica el
operador de intersecci6n and o el de suma or. En algunos cases se permite el
use de pa&ntesis o anidamiento para formular ecuaciones complejas.

2. Los operadores de proximidad, con mtiltiples variantes, son frecuentes pero no


siempre &Sin disponibles. Raramente permiten preguntas en lenguaje natural
con resultados aceptables.

3. El truncamiento, final o interno, esta disponible prkticamente en todos 10s


sistemas y, en muchos cases, autom&icamente, lo cual puede inducir a
resultados no deseados.

4. La denominada btisqueda difusa CJ”uz~ search) o truncamiento automatico


(sfemming) esta muy extendida. Es deck, la expansi6n automatica de la
formulaci6n d e btisqueda m e d i a n t e incorporaci6n automAtica d e plnrales,
palabras con una rair corntin, etc. y. en ocasiones, sin6nimos 0 tkrminos
relacionados, se hate sin conocimiento o control de1 usuario, que no pnede
desactivarla cuando no la necesita. Sin embargo, m&s rara es la blisqueda por
coincidencia exacta a la pregunta, o sea, que se respete la cadena de caracteres
i n t r o d u c i d a e n l a ventana d e consulta y s e recuperen iinicamente 10s
documentos en 10s que aparezca exactamente asi. Por otro lado, el use de un
vocabulario m& o menos delimitado y organizado, de una jerarquia de
conceptos o de un tesauro para la expansidn de la pregunta no es muy corntin.

5. La delimitacidn por fechas, dominio, lengua o tipo de fichero, y la bfisqueda por


etiquetas HTML son, entre otras, caracteristicas disponibles en distinto grado y
con grandes variaciones entre 10s diferentes buscadores. Es habitual el use de
una lista de palabras vacias, aunque suele resultar dificil para 10s usuarios
determinar cuBles se han considerado coma tales.

6. La discriminacibn mayfisculas-minlisculas, de acentos, simbolos, y signos


diacriticos, a veces estB disponible, otras no, y en ocasiones, es dificil
determinarlo.

7. La ordenaci6n de 10s resultados por relevancia es una caracteristica


imprescindible. El proceso de retroalimentaci6n para afinar la recuperaci6n
(relevance feedback o iterative senrch) puede estar disponible mediante
distintas tknicas coma el <cm& como kstes de Excite, o la incorporaci6n de
tkminos sugeridos por el programa a la ecuaci6n de blisqueda basados en una
variedad de criterios habitualmente desconocidos para 10s usuarios.

5.3. ANALISIS DE LOS RESULTADOS

El gran nlimero de documentos que 10s buscadores devuelven en respuesta a las


consultas, hate que una de las prestaciones que m8s se agradezcan sea la ordenaci6n
de 10s resultados seglin su relevancia a la pregunta. Debido a la alta tasa de llamada o
exhaustividad, es fundamental que 10s resultados aparezcan en orden de relevancia
decreciente, ya que, coma m&imo, se cons&a& las primeras paginas de resultados y
no se llegari nunca al final de la lista de referencias. Por ello, estos servicios
presentan las referencias en funciCIn de cu&n pertinentes resultan (al menos,
probablemente) respect0 a la btisqueda planteada, mostrando en primer lugar 10s
documentos que mAs se ajustan a la necesidad informativa expresada. Sin embargo,
estas listas con frccuencia causan cierta sorpresa y confusi6n al presentar, en muchos
cases, resultados que parecen completamente irrelevantes.

Lo cierto es que ningfin buscador de la W3 es perfecto. Es m&, a menudo


producen la sensaci6n contraria. Si lo que se recibe del buscador al final de la
interacci6n con el sistema es precisamente una lista de referencias, ipor quk se
recuperan pzlginas que poco o nada tienen que ver con la bfisqueda planteada
previamente? Esto se debe a que 10s buscadores utilizan un algoritmo -cuya fkmula
exacta es siempre secreta- para ordenar 10s resultados. Uno de 10s criterios &s
utilizados es la frecuencia de aparici6n de 10s tkminos de la pregunta en el
documento. Consecuentemente, si la palabra clave es comk~ o tiene otros significados,
se pueden recuperar gran cantidad de referencias irrelevantes, fen6meno al que, coma
ya serialamos en paginas anteriores se ha denominado ruido. Los buscadores suelen
considerar, adem& de la frecuencia, la posicih de las palabras clave en el documento
para determinar la relevancia de este bltimo. Posicih y frecuencia no son, pues, 10s
linicos factores utilirados, pero si tienden a ser 10s ~18s dominantes. La gran mayoria
de 10s buscadores utiliza una combinaci6n de indicadores para determinar la mayor o
menor relevancia de 10s documentos recuperados y. normalmente, el algoritmo
utilizado cuenta con varies de 10s indicadores que se sefialan a continuacih cuya
combinacih y ponderacih varfa de un buscador a otro:

1. Frecuencia de la p&bra o frase de la consulta en el documento. Generalmenre


se da prioridad en el ranking a las pBginas que contienen un gran nlimero de
veces las p&bras clave de la pregunta. Sin embargo, algunas palabras
consideradas rams y significativas se ponderan mejor que otras palabras
comunes.

2. Longitud de1 documento. Si tiene poca extensih y contiene repetidamente 10s


thninos de btisqueda tiene prioridad sobre otro mk extenso que tambih
repite las p&bras con frecuencia, es decir, se prima la cantidad relativa de
menciones de las p&bras clave respect0 de1 total de1 documento.

3. Presencia de todas y cada una de las palabras o frases de la consulta en el


documento recuperado.

4. Presencia de 10s thninos incluidos en el documento formalmente iguales


y en el mismo orden que en la ecuacih de btisqueda.

5. Proximidad entre si de las palabras clave de una ecuacih compleja en el


documento recuperado.

6. Palabras o frases de la pregunra al principio de1 texto, mejor si es en el


titulo o en 10s encabezamientos.

7. Presencia de las p&bras de la ecuacih de bhqueda en las META-


etiquetas.

8. Grade de <<popularidad>> del documento, es decir, si ese recurso es muy


citado en otras paginas web.

9. Si forma o no parte de 10s recursos comentados y evaluados, Cmicamente


en el case de que ofrezcan esta posibilidad en ese servicio.

1 0 . E n el case d e 10s directories, l a s categorias s i t u a d a s e n las ramas


superiores de1 Brbol jerhrquico, que corresponden a encabezamientos nxis
generales, se consideran m8s relevantes que las subordinadas.
0 RA~MA CAPiTULoS.L"SMOT"RESDERdSQUEDAPARAIN~ERNE7 89

I I. Algunos creadores de psginas web pretenden nengaiiarn al buscador


repitiendo tkrminos en 10s primeros pkrafos o en las metaetiquetas, lo
que se conoce coma spurnming. Estos documentos son penalizados y
remitidos al final de la lista.

Figura 5.4. Direct Hit

La adecuada presentaci6n de 10s resultados es de tal importancia que, aunque se


recuperen miles de referencias en respuesta a una pregunta, lo que realmente importa
es si el algoritmo de ordenaci6n es verdaderamente eficaz, puesto que, en el mejor de
10s cases, 10s usuarios no revisarin m8s allA de las diez o veinte primeras referencias.
Con el fin de perfeccionar la ordenaci6n se e&n desarrollando algunas tknicas que
utilizan nuevos m&ados para establecer el ranking de resultados:

1. Feedback de relevancia. Algunos nuevos sistemas, como Direct Hit,


utilizan la interaccibn con el usuario coma medio para mejorar la rele-
van& Este buscador trabaja <<observando>> y <sregistrandox e l compor-
tamiento de 10s usuarios en la realizaci6n de las btisquedas, de esta forma
uaprende,, y es capaz de ofrecer, cuando se le solicita, una lista donde las
piiginas se ordenan seghn so popularidad para 10s internautas. Direct Hit
comprueba si anteriormente ya se ha hecho esa misma pregunta u otra
parecida en el buscador y ordena 10s resultados seghn el nlimero de
usuarios que han preferido esas referencias, y las han consultado, de entre
todos 10s resultados. Metabusca es otro de 10s sistemas que tambikn sigue
este m&ado.
90 RECUPERAC16N DE LA INFORMAClbN EN IN7ERNET 0 R&MA

2. Ponderacich de 10s enlaces entre documentos. Este sistema consiste en


considerar 10s hiperenlaces incluidos en las piginas web para establecer la
relevancia de cada documento recuperado y ubicarlos en el ranking de
resultados. Las dos principales iniciativas en este sentido son el sistema Clever
de IBM, y Google, de la Universidad de Stanford. En el case de Clever, el
proceso comienza cuando recoge de un buscador un conjunto de unos pocos
cientos o miles de paginas relevantes para una btisqueda concreta. Las piginas
que tienen yayor ntimero de enlaces apuntando ha& ellas tienen mejor
puntuaci6n. Esta se recalcula para evitar el ruido y se asigna m&s peso a las
paginas realmente m&s importantes creando un conjunto depurado respect0 al
initial.Para determinar la relevancia, Clever tiene tambikn en cuenta coma un
componente clave tanto el texto incluido en el enlace coma el que est5 pr6ximo
a 61. Por el contrario, Google es en si mismo un buscador con un robot que
rastrea la red y tambikn pondera la popularidad de 10s enlaces coma parte
principal de su mecanismo de ordenacibn. TambiCn tiene en cuenta 10s t&m&s
que aparecen en negrita, en 10s encabezamientos, con el texto en letra de mayor
tamatio, etc. ofreciendo muy buenos resultados en las consultas.

3. Criterios comerciales. RealNames y GoTo han puesto en marcha tecnologias


que permiten comprar el privilegio de aparecer en 10s primeros lugares de1
ranking de resultados. En el primer case, 10s creadores o responsables de
piginas web pagan para que cuando se realice una consulta mediante una
p&bra clave el sistema ofrezca, adem& de una lista de resultados realizada
normalmente, aquellas p&ginas registradas en RealNames para ese concepto. En
el Segundo case, cuanto m&s se pague, ITI& arriba se estar6 en el ranking de
resultados. Ciertamente, &tos no parecen criterios muy fiables.

El buscador ha de facilitar el proceso de blisqueda y otorgar al usuario la mayor


autonomia posible, no s6lo para plantear las consultas, sino tambikn, para configurar la
manera en que quiere ver 10s resultados. Sin embargo, las opciones de presentaci6n de
10s resultados en la mayoria de 10s sistemas son b&ante limitadas. Es conveniente que
se ofrezcan: c~mo minima, dos formatos de presentaci6n, uno breve y otro m8s
complete. Optimamente deben ser tres: uno breve o simple, uno estindar y uno
detallado. Algunos buscadores ofrecen m8s. Los formatos en sus diferentes versiones
pueden incluir, entre otros, varies de 10s siguientes elementos:

1. Titulo. Puntuaci6n o valor de la relevancia: Para decidir en qu6 grade


responden 10s documentos recuperados a la consulta formulada, adem& de
ordenar 10s resultados segtin su relevancia, el servicio debe mostrar el
valor de relevancia asignado a cada referencia recuperada respect0 a la
consulta planteada. lkte es un dato muy importante ya que permite
determinar el grade de pertinencia, normalmente expresado en tantos por
ciento, de1 documento a la consulta.
2. Direcci6n o URL

3. Resumen.

4. Tamaiio de1 archive en bytes.

5. Fecha de creaci6n de1 archive

6. Fecha de entrada en la base de datos

7. Lengua

8. Categoria temzitica en la que se ha incluido, ~610 si el servicio posee


directorio.

9. Tkrminos de btisqueda presentes en esa pagina web

Si bien no se permite limitar el nhmero mkimo de referencias totales


recuperaradas en respuesta a una consulta, si se puede establecer el ntimero de
referencias~que se desea ver por pantalla. Los resultados suelen aparecer de diez en
dier, pero se puede cambiar esta cifra a veinte, veinticinco, cincuenta o cien. Aunque
la medida de la exhaustividad de la recuperaci6n en el entorno de la W3 no es
concluyente, puede ser litilconocer la cantidad de documentos que segtin ese servicio,
responden a la consulta, por ello es frecuente que se indique el n6mero total de
referencias obtenidas. Este data, en algunos cases, puede utilizarse para comparar el
funcionamiento de distintos servicios de btisqueda y comprobar la presencia de unos
temas sobre otros o la necesidad de delimitar m8s la btisqueda.

Otro dato interesante aunque muy pocos buscadores lo muestren, nos puede
servir coma ejemplo Altavista, es la frecuencia o mimer0 de apariciones de cada
uno de 10s tkminos de la ecuaci6n de btisqueda en la base de dates, indicando en
cuantos documentos estan contenidas cada una de las palabras clave de la
consulta. Por Gltimo, y aunque e&n ordenadas por relevancia, cuando las
bfisquedas devuelven gran cantidad de referencias es muy titil que kstas
aparezcan numeradas. ya que, de otro mode, es f&i1 perderse en la larga lista de
resultados.

5.4. VALORACIi)N DE LAS PRESTACIONES DE LOS


BUSCADORES

La gran cantidad de servicios de blisqueda disponibles en el entorno de la World


Wide Web hate que, a veces, resulte complicado determinar cual es el m8s adecuado o
puede adaptarse mejor a nuestras necesidades. Para obtener una visi6n global de la
92 RECUPERACION DE LA lNFORMACldN EN INTERNET 0 RA~MA

valia de on buscador no se debe hater on recuento simple de caracteristicas, ya que no


siempre fun&ma la premisa de que ~tn8s es mejon,. Hay propiedades que tienen
mayor importancia que otras, que aumentan el grado de satisfacci6n final o que
resultan nxk innovadoras. Si no se ponderan adecuadamente, el resultado final no
reflejara fklmente las cualidades de 10s sistemas.

Para ilustrar el proceso de valoraci6n de prestaciones de 10s buscadores y


detallar c6mo puede llevarse a cabo, presentamos en tabla a continuaci6n una hoja de
evaluaci6n que el lector podrj utilizar para guiarse a la hora de comparar entre varies
buscadores. En esta tabla se reflejan la mayoria de las caracterkticas que presentan 10s
buscadores m& representatives y utilizados. Hemos extraido aproximadamente una
cincuentena de indicadores, cada uno de 10s co&s representa una caracteristica de1
servicio analizado. que permiten determinar la utilidad real de un buscador para un
usuario. Sin embargo, para facilitar el proceso y adaptarlo a las necesidades reales de
cada usuario, se pueden utilizar linicamente aquellos indicadores que m&s interesen en
un momenta dado, descartando el resto. Esta hoja de evaluaci6n es valida si se quieren
comparar varies buscadores entre si, porque permite calcular la puntuaci6n obtenida
por cada uno de ellos, o bien para ofrecer una orientaci6n general de las prestaciones
que on servicio de blisqueda debe presentar. Es deck, 10s indicadores son par&netros
de distinto rango que ofrecen una respuesta de tipo afirmativo o negative (silno),
indicando la presencia o ausencia de una determinada caracteristica aunque se
encuentran, coma excepci&, algunas respuestas de tipo valorativo (aceprablel
excelente). Estas Cltimas se han evitado, en la medida de lo posible, por la gran carga
subjetiva que conlleva si bien indican claramente en qut? grado satisface el servicio esa
prestaci6n.

La estructura de la tabla, dividida en 4 secciones (motor de bhsqueda, base de


dates, interfaz y otros servicios ofrecidos), permite obtener, no ~610 una visi6n global
de cada buscador analizado sino, ademk, una comparativa m&s rigurosa al mostrar
resultados parciales relatives a cada una de estas secciones. De tal forma que podamos
observar que, por ejemplo, un buscador presenta una adecuada interfaz aunque so
motor de bkqueda no est6 a so altura. Una herramienta de consulta competente debe
ofrecer posibilidades de bhsqueda fundamentales con las que 10s usuarios de Internet
es& familiarizados. Aunque, por supuesto, &a es una cuesti6n opinable y segtin
quikn sea el usuario de1 buscador tendra ciertas preferencias por was prestaciones
sobre otras, hay caracteristicas que se pueden considerar imprescindibles, como es el
use de operadores booleanos o la existencia de un directorio tematico para el browsing,
puesto que se encuentran en la mayor parte de 10s buscadores y so ausencia incide
directa y muy negativamente en el grado de satisfacci6n y en las expectativas creadas
por 10s usuarios respect0 a este tipo de servicios. Por ello, la ausencia de determinadas
prestaciones (lo que se indica en la tabla en la columna encabezada por A),
consideradas coma imprescindibles, se qqpenaliza,, restando 1, 2 o incluso 3 puntos,
dependiendo de la importancia de la misma. Pueden considerarse caracteristicas
imprescindibles las siguientes:
ORA~MA CAPiTULO 5: LOS MOTORES DE BdSQUEDA PARA INTERNET 93

a) En relacih con el motor de btisqueda

1. Operadores: Se ha de valorar la posibilidad de utilizar 10s operadores booleanos


(and, or y not), 10s limitadores + -
2. Frases: Permitir la btisqueda de expresiones de varias palabras que deben
aparecer asi en las paginas web recuperadas.
3. Etiquefns: Btisqueda por etiquetas HTML incluidas en 10s documentos web
(titulo, image”) o de otras cualidades formales (tipo de fichero) o de ubicaci6n
(dominio, servidor, etc.)
4. Lenguaje narural: Bdsqueda en lenguaje natural.
5. Directorio: Ha de contar con un directorio temhtico coma complemento al
buscador.
6. Ayuda para reformular las btisquedas si 10s resultados no son id6neos.
7. Orden relevancia: Los resultados han de estar ordenados en funci6n de su
relevancia a la pregunta planteada.
8. Valor relevancia: El buscador debe mostrar el valor de relevancia que tiene
asignado cada referencia recuperada.
9. Cadenas de caracferes: Se debe comprobar si acepta el use de cadenas
num&icas (007) y alfanumkricas (4B), ya que esta prestaci6n puede ser
necesaria en algunas bcsquedas.

b) En relacih con la base de datos

1. Texto complete: Los buscadores tienden a indizar el texto complete de las


paginas web, asegurando asi que cada palabra de l? pagina sea una entrada
disponible en el indice para poder ser recuperada. Esta es una caracteristica
indispensable.

2. Enviando URL: Ademkde la recopilacidn aurom&tica, otra forma muy comhn


de ampliar la base de datos es permitir a 10s creadores o mantenedores
(w&masters) de paginas web enviar sus URL a la base de datos. Un dato
relevante relacionado con este proceso, es el tiempo que transcurre mientras que
el creador envia una direcci6n y el momenta que se recupera a travks de la
interfaz de usuario de ese buscador. Este periodo no debe ser superior a una
semana.
HOJA DE EVALUACI6N PARA LA VALORACI6N DE LAS
PRESTACIONES DE LOS BUSCADORES WEB
Figura 5.5. Hoja de evaluaci6n

c) En relacih con la interfaz

Muy importantes para orientarnos en la utilizaci6n de1 buscador son las pantallas
de ayuda y 10s ejemplos de blisqueda, asi coma la existencia de una opci6n de
blisqueda avanzada para consultas con caracteristicas o condiciones especiales.

d) En relacih con otros servicios


La presencia de otros servicios complementarios a 10s que se tienen acceso a partir
de1 buscador aumentan constantemente en n13mero y calidad hasta desembocar en un
nuevo concept” de herramienta de blisqueda, 10s port&s, anteriormente mencionados.
La ausencia de este tipo de servicios puede decepcionar a muchos usuarios, por lo que,
en ese case, se restan puntos, I 0 2, segfin el case:

1. Usenet: Los grupos de debate son una importante fuente de dams que se pueden
necesitar para acceder a determinada informaci6n que no haya podido ser
facilitada par el buscador en el transcurso de las consultas.

2. Corrco electrhzico: A veces, la mejor manera de localizar un dato o una


informaciSn es remitiendo la petici6n directamente a la persona que pueda
proporcionarla. Por ello, la posibilidad de localizar direcciones de correo
electr6nico es una opciSn nada despreciable

3. Noticias: Las noticias de actualidad y las especializadas (economia, comercio,


politica, etc.) responden a un tipo de blisqueda especifico que dificilmente
puede resolver el buscador a travks de su interfar de consulta a la base de dates.
ya que &ta se actualiza peribdicamente lo que no permite incluir las noticias
~16s actuales. El acceso a un servidor de noticias es una posibilidad muy bien
recibida par 10s usuarios.
96 RECUPERAClh DE LA 1NFORMACIi)N EN INTERNET ORA-MA

4. Otros: La gama de posibilidades accesibles desde 10s servicios de blisqueda es


amplia y variada, tanto que con frecuencia se hate muy dificil establecer una
tipologia de las mismas, puesto que todos intentan ofrecer servicios originales y
titiles. Son un valor aiiadido que 10s usuarios tienen cada vez nxis presente
cuando eligen usar un buscador en lugar de otro. Dentro de &a se incluye
desde la traducci6n de paginas web hasta la btisqueda de recursos multimedia y
de libros en libretias virtuales, todos estos servicios contribuyen a ofrecer
informaci6n con valor afiadido y a incrementar la calidad total de1 servicio
prestado.

L a gradaci6n establecida anteriormente respect0 a las caracterfsticas q u e ,


necesariamente, han de aparecer en un buscador (cuya ausencia se penaliza restando
puntos del recuento final), tambikn tiene lugar al ponderar positivamente la presencia
(P en la tabla) de ciertas prestaciones m8s innovadoras o no mayoritarias en 10s
buscadores, es decir, aquellas prestaciones que, aunque no Sean totalmente
imprescindibles, si son deseables y valoradas.

a) Motor de btisqueda

En relaci6n con las bu’squedas hay que considerar si el buscador acepta corno
ttknino de la pregunta cualquier palabra contenida en las piginas web (sin palabras
w&s) y la introducci6n de expresiones complejas (HzO, C++), si es sensible al use de
las maykculas y mimkculas y 10s acentos. Asimismo, hay que comprobx si permite
realizar el truncamiento. La biisqueda por conceptos o bkqueda aproximada es una
caracteristica muy valorada, por lo que se premiaria con 3 puntos al buscador que la
presente. Tambit% se puntha positivamente la posibilidad de usar partkesis asi cotno
operadores de proximidad y de otro tipo (coma can, must, must nof, should, should
not) para componer ecuaciones de biisqueda complejas. Otro rasgo a destacar es si el
operador por defecto (que el programa afiade autom&icamente entre 10s tkninos de la
btisqueda) es and, lo curd resulta muy Gtil para usuarios noveles. Se puntk
positivamente la ayuda en realizaci6n de las btisquedas, es decir, la posibilidad de
reducir 10s resultados (plantear una blisqueda sobre las referencias obtenidas),
blisqueda mediante ejemplo (que ofrezca referencias similares a la que nos interesen),
use de un tesauro (que proponga tktninos de bhsqueda relacionados con 10s de nuestra
consulta), asi coma otras caracteristicas de btisqueda coma delimitar por lengua,
fecha, etc.

Cada vez con m&s frecuencia 10s buscadores permiten, desde el mismo motor,
realirar otras blisquedas, adem& de localizar paginas web (ficheros de sonido, de
imigenes, de video, etc.), lo que sumaria puntos. En cuanto a la presentaci6n de Zos
resultados hay que evaluar si el buscador muestra el nfimero total de referencias
(hits) resultantes de la btisqueda, si se indica la frecuencia de cada tkrmino de
btisqueda en la base de dates, si permite limitar el nlimero total de referencias
recuperadas, si permite establecer el nhmero de referencias por pantalla, si las
referencias recuperadas aparecen numeradas y si oferta diferentes formatos de
presentaci6n.

b) Base de datos

El tama& de las bases de dates de 10s buscadores web es uno de 10s temas m&
controvertidos en relaci6n con la recuperaci6n de informaci6n en Internet. Es casi
imposible saber el volume” exact0 de documentos disponibles tanto en la propia W3
coma en las bases de dates compiladas por estos servicios de blisqueda. En ocasiones,
desde istos, se pueden inflar las cifras para mejorar la image” de1 buscador en cues-
tibn. Si, coma se indic6 en un capitulo anterior, el volumen estimado de la W3 se sitlia
en torno a 10s ochocientos millones de p&ginas, la referencia minima utilizada en un
buscador debera encontrarse por encima de 10s cien, e incluso ciento cincuenta,
millones de p8ginas. No ~610 el tamario, sino tambi6n la actualizacidn de las bases
de dates, es decir, el period0 de tiempo en el que el robot rastrea toda la W3, es
algo que se debe tener muy en cuenta. Habitualmente, 10s dates de que se dispo-
nen son 10s que 10s buscadores de&ran sobre si mismos, por lo que su total
fiabilidad no esta garantizada y, en ocasiones, se pueden encontrar m& referen-
cias con enlaces obsoletes de lo que declaran. Se puntha de 1 a 3 dependiendo de
la mayor o menor frecuencia de actualizaci6n.

El proceso de conshucckh de las bases de dates de 10s buscadores se realiza de


manera automitica mediante una arafia, si bien este m6todo puede complementarse
con el sistema manual, ya que muchos cuentan con un servicio complementario, el
directorio tem&ico. En este case el proceso de compilaci6n, indizaci6n y organizaci6n
de la informaci6n en categorias tematicas puede llevarse a cabo integramente con
intervencibn humana lo cual supone un valor afiadido y dota de gran fiabilidad al
proceso de recuperaci6n de informaci6n.

En cuanto a la indizacih que realizan 10s programas buscadores se ha de tener en


cuenta si &tos consideran especialmente algunas etiquetas ocultas (metaetiquetas) de
las psginas web con el fin de obtener t&minos adicionales htiles para la indizaci6n y
determinar la relevancia de 10s documentos (keywords) o, in&so, para especificar la
descripci6n del documento o identificar a su autor. Por otro lade, una arafia debe
comportarse coma una ccbuena usuaria>> de la W3. Para ello debe respetar el Protocolo
de Exclusi6n de Robots. Cuando el robot visita un servidor web comprueba el
contenido de1 archive /robots.txt para comprobar si hay partes de ese servidor que no
debe visitar. Algunas arafias tambikn reconocen la metaetiqueta robot, donde puede
aparecer el mensaje noindex en una pigina concreta, una indicaci6n de que la
mencionada pagina no debe indizarse. Finalmente, algunos buscadores incluyen un
servicio de valor afiadido muy litil al ofrecer una base de dates, si bien mucho menor
que la compilada automiticamente, de recursos web preseleccionados en funci6n de su
calidad (coma Go Gui&es de lnfoseek). Esta evaluaci6n siempre es realizada por
expertos, lo cual es considerado muy positivamente.
98 RECUPERAC16N DE LA INFORMACIdN EN INTERNET 0 R&MA

c) Interfaz

En este apartado se deben analizar 10s aspectos que influyen en la presentaci6n de1
buscador y en la ayuda que presta al usuario que quiere sacarle el maxima provecho:
la calidad de 10s gr@cos, uno de 10s aspectos m&s subjetivos en la valoraci6n de un
buscador, la ayuda que ofrece, en esta ocasi6n referida a la informaci6n que ofrece el
servicio sobre si mismo (documentacidn) y a la presencia de men& desplegables. Hay
que valorar tambidn que permita guardar la conJiguraci6n de btisqueda para poderla
utilizar en otras ocasiones, que cuente con una interfazpersonalizable, con servidores
duplicados (mirrors) y versiones nacionales.

5.5. LOS METABUSCADORES Y COLECCIONES DE


BUSCADORES
El t&mino metabuscador o megabuscador o tambien metaengine, megasearcher,
parallel search engine, multiple search engine, designa interfaces en las que se pueden
usar varies motores de blisqueda al mismo tiempo. El use de metabuscadores cuenta
con aspectos positivos y negatives (Notess 98). Algunas de las ventajas que presentan
10s metabuscadores son:

1. Envian la pregunta planteada simultaneamente a varies buscadores -Altavista,


Excite, etc.- y, tras el procesamiento paralelo de la btisqueda, presentan’los
resultados.

2. Las bases de dates de 10s buscadores individuales -Hotbot, Northern Light,


etc.- miis que solapar contenidos, son complementarias, por lo que, en
blisquedas exhaustivas, hay que ejecutar las consultas sucesivamente en varies
de 10s principales servicios y, en consecuencia, aprender la sintaxis de bcsqueda
de varies buscadores. Esto se evita utilizando un metabuscador.

3. Los mejores megabuscadores presentan una gran variedad de opciones para


ordenar 10s resultados y eliminar duplicados, facilitando asi la revisi6n de las
referencias recuperadas.

Algunos de 10s megabuscadores en linea m8s destacados son MetaCrawler,


Inference Find y DogPile. Sin embargo. 10s metabuscadores tambiQ presentan
inconvenientes:

1. El use de un buscador individual coma Altavista, Excite o Infoseek, tiene la


ventaja de aprovechar todas las prestaciones de esa herramienta y sus opciones
m8s actualizadas. istas no se reflejan de forma inmediata en 10s metabus-
cadores que dirigen las blisquedas a este servicio.
2. Los buscadores individuales acttian como portales o punto de partida hacia otro
tipo de recursos ofreciendo acceso a bases de dams especializadas de im~genes,
ficheros de sonido, noticias, etc., disponibles ~610 conectando directamente con
ese buscadorx. La mayor parte de 10s megabuscadores en realidad ofrecen
resultados muy poco exhaustivos, carecen de gesti6n de bfisquedas booleanas,
no admiten las btisquedas por etiquetas HTML, ni otras caracterfsticas
avanzadas especfficas de 10s buscadores individuales y en ellos se detecta la
ausencia, dificilmente justificable, de reconocidos servicios de consulta.

3. El use de metabuscadores contribuye a (Koster 95):

a) Sobrecargar el servidor de1 metabuscador (el ordenador donde se encuentra


instalado ese servicio), ya que &e ha de contactar con 10s buscadores para
gestionar las consultas.

b) Sobrecargar la red, puesto que 10s metabuscadores envian la pregunta a 10s


distintos buscadores aunque es& muy distantes de1 usuario y no utiliran ni
10s duplicados ni las versiones nacionales de 10s buscadores.

c) Sobrecargar 10s servidores de 10s buscadores, ya que 10s metabuscadores


siempre lanzan las consultas a varies aunque se localicen suficientes
referencias relevantes accediendo ~610 a uno de ellos. Es probable que el
usuario seleccione m&s s e r v i c i o s d e 10s estrictamente necesarios para
garantizar un gran ntimero de resultados.

A pesar de 10s problemas expuestos, hay cada vez m8s servicios que utilizan varies
m&ores simultBneamente y permiten a 10s usuarios ordenar 10s resultados, eliminar
duplicados y verificar la disponibilidad de 10s enlaces. La investigacidn en este tipo de
herramientas se centra en ofrecer al usuario mayor control, combinando bhsqueda y
browsing y ofreciendo resultados basados en SIX preferencias especificas. Adem& de
10s megabuscadores en linea han proliferado 10s metabuscadores que actlian como
agentes personales y se ejecutan desde el ordenador de1 usuario. Ejemplos de este tipo
de herramientas son Internet Fast Find, WebFind, EchoSearch, WebCompass y
WebSeeker.

Otro tipo de servicios relacionado con 10s metabuscadores es el de las colecciones


de buscadores. Estas interfaces ofrecen, desde una linica pagina web, acceso a
diferentes servicios de btisqueda. Permiten plantear directamente las consultas y
actfian coma guia, exhaustiva o selectiva, de buscadores y director&, de manera que
quien busca informaci6n sobre un pais o un tema puede saber co&l es el punto de
partida m8s adecuado a sus necesidades. Ejemplos de estas herramientas son 10s
veteranos Configurable Unified Search Engine (CUSI) de Martijn Koster, <<All in
one,>, de William Cross y Buscopio, una evoluci6n de la &uia de indices y Motores
de Bhsqueda>> (GOBIB), creada en diciembre de 1996 y mantenida desde entonces por
Ricardo Fomas. Buscopio es una de las colecciones mzls exhaustivas -casi 3.000
100 RECUPERACldN DE LA INFORMAClhN EN INTERNET 0 RA~h14

buscadores- y mejor organizadas de la red. Como en el case de 10s metabuscadores


en linea, las colecciones de buscadores suponen un gran ahorm de tiempo, pero su use
efectivo requiere familiarizarse con las prestaciones y posibilidades de 10s diferentes
buscadores a 10s que se les plantean las consultas.

Figura 5.6. Buscopio: Buscador de buscadores


CAPiTULO 6

PRINCIPALES
MOTORES DE B‘iTSOUEDA EN INTERNET

6.1. ALTAVISTA

6.1.1. Origen de Altavista


Altavista es uno de 10s pocos buscadores que no nace en el seno de una uni-
versidad. Los Laboratorios Digital en Palo Alto, California, con Louis Mornier a la
cabeza, se pusieron manes a la obra a p&r de la primavera de 1995. Tras numerosas
pruebas se disefi6 una arafia que buscaba y recuperaba automBticamente informaci6n
de las paginas web y que fue bautizada coma Scooter. Asimismo, decidieron crear un
indice de toda la Web, tarea que hasta ese moment0 se pensaba irrealizable, por el
vasto volumen que ya entonces estaba alcanzando. Para conseguir este ambicioso
objetivo crearon on programa de indizaci6n capaz de indizar a texto complete las
paginas con la misma velocidad que Scooter podia recuperarlas. Segtin Momier, 10s
laboratorios de Digital eran el linico lugar de1 mundo donde podia realirarse este
trabajo con tanta rapidez, ya que pocas empresas tenian el personal investigador
necesario y ninguna universidad podria haberse permitido tal inversi6n en equipa-
miento. Altavista foe el nombre de1 c6digo de este proyecto, que acab mantenikndose
finalmente de manera definitiva.
El 15 de diciembre de 1995 foe la fecha oficial de lanzamiento y desde entonces,
no ha dejado de cosechar 6xitos siendo una de las 4fias mimadaw de 10s usuarios de
la W3, aunque en la actualidad hay excelentes herramientas coma Excite, Infoseek, y
otros, que generan una fuerte competencia. En estos mementos, Altavista es propiedad
de Compaq Computer Corporation
6.1.2. Descripcih de Altavista

Al&vista (http://www.altavista.com, http://altavista.magallanes.net) es un buscador


de amplia cobertura --m&s de 170 millones de piginas y una base de datos actualizada
mensuahnente-, que realira la indizaci6n automatica de1 contenido integro de las
pBginas web. Desde sus inicios incorpor6 a su interfaz las dos opciones de bfisqueda
que hoy son practicamente generales: la simple basada en un format0 de consulta
sencillo e intuitive que permite plantear preguntas en un lenguaje direct0 en cualquier
lengua occidental y la avanzada, con un lenguaje basado en ecuaciones de btisqueda
m&s elaboradas, usando varies operadores Mgicos, delimitando por fechas de publi-
cacibn, etc. En ambas blisquedas se puede utilizar el asterisco corno cornodin para
realizar una blisqueda de todas las palabras con un patr6n corntin. Altavista discrimina
mayfisculas de mintisculas -s610 en el case de que se introduzcan caracteres en
maytiscula-y 10s acentos.

Las dos opciones de btisqueda tlenen sus particularidades. Al conectar con


Altavista se muestra la pantalla de bdsqueda simple; una ventana de consulta invita a
introducir las palabras o la frase que representan el tema de la consulta. Se puede
buscar en toda la web, ~610 noticias, grupos de discusi6n o productos. Aqui las
preguntas se pueden plantear en lenguaje natural, es decir, sin estructurar, de1 tipo
jcudl es la iltima pelicula del ncror Eduardo Noriegn?, si bien 6sta no es la mejor
forma de sacarle partido a su voluminosa base de datos; mientras que las comillas
fuerzan a Altavista a buscar por frases exactas, la nueva caracteristica (Ask Jeeves)
reconoce millones de frases comfinmente usadas, blisquedas web frecuentes, gente
famosa, peliculas y tbminos especializados. Tambi6n se pueden utilizar 10s caracteres
+ - que actlian coma limitadores para ayudar a filtrar 10s resultados. En 18 opci6n de
bhsqueda simple la consulta se ejecuta en tres frentes distintos: a) por un lado, se ha
incorporado la tecnologia de blisqueda de Ask Jeeves la cual, ofrece resultados
media& diferentes combinaciones posibles pregunta-respuesta a partir de la consulta
planteada b) Resultados ofrecidos por Realname previo pago de 10s responsables de
esas paginas web c) la blisqueda se realiza tambien en la propia base de datos de
Altavista y, c) en el directorio temitico Open Directory

Cuando se accede a)? bhsqueda avanzada, el servicio ~610 envia la consulta a la


base de datos de Altavista. La pantalla de bfisqueda avanzada cuenta con dos ventanas
principales. En la primera se introduce la ecuaci6n de blisqueda, que puede contener
operadores 16gicos KY>> (cmcl, &j, KOB (or), won (and not, !) y de proximidad (near,
-). En la segunda ventana, se ha de indicar la condici6n para que 10s resultados se
ordenen, ya que en esta opci6n el programa no lo hate autom8ticamente. Aunque
Altavista defiende que asi proporciona m8s control sobre 10s resultados de bcsqueda,
permitiendo la ponderacien de algunas palabras clave, lo cierto es que supone una
desventaja puesto que obliga al usuario a decidir un criteria de relevancia que no
siempre tiene muy claro. Una tercera ventana da la oportunidad de limitar la blisqueda
a documentos publicados en un interval0 de tiempo especifico y otra de elegir la
lengua en que deben estar escritas las piginas web. AdemBs. se puede optar por que
0 RA~\,A c,wiruLo 6. ~~~CIPALES ~oTow3 DE B~SQUEDA EN mm3wm 103

~610 muestre un resultado por cada servidor y asi hater el conjunto de resultados &is
plural y diverso.

Altavista afirma que su base de datos no cuenta con una lista de palabras vacias
aunque, si la bcsqueda devuelve correspondencias demasiado numerosas, Altavista
ignora las palabras muy frecuentes en 10s documentos, thminos coma Internet o
World Wide Web no pueden ser localizados. El programa permite refinar la bkqueda;
para ello sugiere una serie de tQminos relacionados que se pueden aiiadir o excluir de
la ecuaci6n de btisqueda. Altavista tambikn cuenta con un revisor ortogrifico que
sugiere posibles ortografias alternativas para usarse en bhsquedas sucesivas.

Uno de 10s kasgos nGs notables es la bhsqueda por campos o etiquetas. Altavista
acepta, en sus dos modes de consulta, el use de palabras clave para limitar las
bhsquedas a las paginas que respondan a criterios especificos propuestos tanto con
relaci6n a su estructura coma a su contenido. Permite el use de las etiquetas de tftulo
(title), URL (uvl), dominio (domain), servidor (host), texto de1 hiperenlace (nnchor),

direcci6n de1 hiperenlace (link), image” (image), aplicaci6n Java (applet) o de1 texto
(text).

Al final de la pagina de resultados se indica el nlimero de veces que aparece cada


t&mino de btkqueda en 10s documentos de la base de dates, si bien no muestra el
valor de la relevancia de cada referencia recuperada. Al ordenar las referencias por
relevancia, el servicio limita el modo de ver 10s resultados de la blisqueda a 10s 200
documentos m& relevantes, nknero que el buscador considera suficiente para que se
pueda recopilar la informaci6n mk importante referida a su consulta. Pero, si se
desea, se pueden revisar m8s resultados, para ello se ha de plantear la consulta en la
blisqueda avanzada usando una expresi6n booleana. En la lista de referencias hay un
enlace para traducir las paginas web a otras lenguas y ?lzore pages from this site
muestra otras p?iginas de ese servidor. La opciSn Images, Audio & Video es muy Gtil,
dando access a bhsquedas multimedia excepcionales. Concretamente. muestra im&
genes, fotografias y ficheros de sonido de lo m8s diversos.

Altavista cuenta con una opci6n para personalizar las bkquedas adaptindolas a 10s
intereses de cada usuario. Se puede elegir la lengua en que han de estar las paginas
recuperadas y el tipo de format0 de 10s resultados, adem& de contar con versiones
disponibles para consultarlo en 25 lenguas diferentes. El programa usa la inteligencia
artificial para identificar la lengua de las pBginas web individuales, permitiendo
delimitar las besquedas. Si se es usuario habitual de este servicio interesa registrar las
preferencias de bfisqueda para que Altavista las tenga en cuenta cuando ejecuta las
consultas; para ello no utiliza registros de identificacidn (cookies) coma hacen otros
buscadores, sino que asigna un nuevo URL a las caracteristicas sefialadas por 10s
usuarios para usarla coma direcci6n preferida (bookmurk) desde el navegador siempre
que sea necesario.
Mediante Ahvista Network se puede acceder a 10s servidores de1 buscador
situados m8s pr6ximos al lugar desde donde se estB consultando, lo que proporciona
m& velocidad en las conexiones, y servicios con contenidos dedicados a cada regi6n
especifica y con una interfaz en su lengua. Altavista cuenta con servidores duplicados
o mirrors ubicados en Africa, Asia, Australia, Canad& Europa, Iberoamkrica y 10s
Estados Unidos. Aunque se supone que son reproducciones idknticas de1 indice
principal Altavista, de hecho, casi nunca es asi, ya que incluyen menus paginas que el
servicio principal, ofreciendo resultados no tan exhaustivos y sustancialmente dife-
rentes al Altavista de California.

El sistema de ayuda de este buscador es muy bueno; in&ye sugerencias de ayuda


ripida que se muestran desde la ventana de consulta, tiene una lista de preguntas m&s
frecuentes (FAQ), describe la base de datos y las posibilidades de bkqueday, adem&,
ofrece numerosos ejemplos de consulta. Altavista es un buscador respetuoso con las
reglas de1 buen cibemauta; permite al creador de paginas web controlar el mode en
que se indiza su pigina, al indicar quk criterios se utilizan para la ordenaci6n por
relevancia, y respeta el protocolo de exclusi6n de robots.

Altavista ha incorporado servicios coma la oferta y blisqueda de direcciones de


correo electr6nico, la consulta de informacibn sobre negocios, por categotias o
nombres, delimitando por estados, ciudades, etc. y un servicio gratuito de
traducciones. La iiltima posibilidad mencionada es una de las m8s innovadoras:
permite la traducciirn automzltica e instanttiea de textos en ingk hacia otras lenguas
europeas -alem8n, espafiol, frank, italiano, portugu.4- y viceversa. Para ello se
introduce el texto en un formulario, o bien la direcci6n de una pagina web, se envia y.
al cabo de unos segundos, que aumentara si se trata de un texto amplio o si se utiliza
en horas de m&&no use de la red, se recibe la traduccidn. Al tratarse de una
traducci6n 100% autonkica, el producto final es de poca calidad, sobre todo en el
case de textos de cierta extensibn, pero resulta 6til si ~610 se quiere adquirir una idea
general de1 contenido. El resultado que ofrece el programa traductor es m& adecuado
en tanto en cuanto la sintaxis de1 texto de origen tambikn sea m&s sencilla.

6.1.3. Funcionamiento de Altavista

El buscador Altavista explora la W3, busca y encnentra cada pigina, lee su


contenido, identifica todas las palabras y las afiade a una base de dates consultable por
10s usuarios. Su arafia, Scooter, busca paginas a gran velocidad. El programa de
indizaci6n indiza las paginas a igual velocidad que el robot las encuentra y
proporciona una representaci6n completa de todo el documento. Scooter recoge
informaci6n y la envia al sistema de indizaci6n que compila el indice. El programa de
indizaci6n toma el texto de un documento y analiza cada palabra para crear un indice
organizado por palabras. Guarda cada parte de cada palabra con el URL de la pagina
en la que aparece y la informaci6n sobre su localizaci6n en ese documento. Ese nivel
de detalle es necesario para real&x btisquedas de frases que dependen de1 conoci-
miento de1 orden exacto de todas las palabras en el documento.
0 K&MA cA&uLo 0: PRIN~IP,W~ rwr0aEs DE B~~.~EDA EN wwwm 105

Al&vista puede manipular muy rapidamente las consultas constituidas por frases,
combinaciones complejas de tkminos, bfisqueda por etiquetas y en 10s grupos de
noticias o Usenet. Cuando dew&e 10s resultados de una consulta en la opci6n de
bhsqueda simple, Altavista 10s ordena seglin so relevancia basindose en 10s siguientes
criterios:

1. Que las palabras o frases de la blisqueda se encuentren en las primeras lineas de


un documento, por ejemplo en el titulo de una pagina web.

2. Que la frecuencia de aparici6n de una palabra o frase de consulta sea alta. Wo


algunas palabras se ponderan m& que las palabras comunes (so ccrarezau se
determina por el nhmero de veces que aparece la palabra en el indice).

3. Que todas las palabras o frases de la consulta aparezcan en el documento.


Cuantas m& palabras de la ecuaciSn de bcsqueda se encuentren en el
documento mejor se situ& en la lista de resultados. Que las palabras o frases
de una ecuaci6n compleja es& prkimas entre si en el documento recuperado

Como se ha comentado, Altavista, sin embargo, no muestra 10s resultados de una


blisqueda avanzada en un orden preestablecido, a menos que se especifiquen
explicitamente 10s criterios de presentaciSn. Para clasificar 10s resultados de modo que
10s documentos m& litiles aparercan al inicio de1 listado, se deben introducir palabras
o frases coma criteria de ordenaci6n. Si no se hate asi, so orden es aleatorio. Como
modo adicional de definir la bhsqueda se pueden utilirar las palabras que forman parte
de la consulta o bien introducir nuevas palabras.

6.1.4. Comentarios sobre Altavista

Altavista es ya todo un clkico de la red y no ~610 por so relativa aantigiiedad,,.


sino por so gran aceptaci6n. Una gran base de dates, correcta velocidad y amplioa
resultados relevantes avalan la confianza que 10s usuarios siguen depositando en este
buscador. La sencillez en el planteamiento de las preguntas en la bhsqueda simple, con
una interfaz austera y eficaz, asi coma las amplias posibilidades de so blisqueda
avanzada justifican el use de esta herramienta. Los nuevos servicios, coma el de
traducci6n autom&ica, contribuyen a la excelente acogida que siempre ha tenido este
buscador. Sin embargo, no resuelve demasiado bien las btisquedas en lenguaje natural
y debe mejorar la eliminaci6n de 10s enlaces inservibles, desaparecidos o
desactualizados, donde el programa no es tan riguroso.

6.15 Una btisqueda con Altavista

Si queremos localizar informaci6n sobre el conflict0 de Estados Unidos con Cuba


en relaci6n con el nifio balsero Eli&n, utilizaremos la versi6n principal de1 buscador, es
de&, la norteamericana, y no su versi6n espafiola, por ser la que m& prestaciones
presenta. Las etapas de la blisqueda se desarrollan como sigue:

1. En primer lugar, conectamos con el buscador (www.altavista.com) para


acceder a su pagina principal u homepage.

2 . A continua&n, planteamos la consulta en la ventana de bfisqueda simple que es


la que aparece por defecto. La ecuaci6n de btisqueda para esta pregunta podria
ser: +“lJnifed States” +Clrba +Elinn boy

a,taViSta SEARCH

Figura 6.1. Blisqueda simple de Altavista

Los t&minos de btisqueda estBn en in&% para aumentar las posibilidades de


encontrar informaci6n sobre el tema, ya que la mayor parte de 10s documentos
presentes en la red es& en esa lengua. Usamos el delimitador + para obligar a que
esas palabras aparezcan en 10s documentos recuperados, no asi 4ikw (boy) puesto
que, aunque es recomendable para que el tema se ubique en el contexto adecuado, no
es de1 todo imprescindible. <<Estados Unidosx se pane entre comillas para que
aparezca coma una frase de blisqueda (coma t&ninos adyacentes y en ese or&n) en
las piginas web que el programa nos muestre. <<Elian>> no se ha acentuado, ya que de
csta manc~a se recuperan p;iginas don& aparece con 0 sin acentuar (si se escribe con
acento ~610 encontrara las paginas donde ese nombre propio aparezca exactamente asi,
acentuado).

Adem& de 10s resultados de la btisqueda en la base de dates de Altavista, el


buscador presenta otros enlaces que pueden ser de gran utilidad para ampliar la
informacidn sobre ese tema. Son 10s siguientes:
1. En primer lugar aparece un enlace, Family Filter, para eliminar de 10s resultados
de bfisqueda 10s recursos de informaci6n para adultos o de contenido molesto.

2. Despu&, un enlace hacia 10s resultados ofrecidos por Realnames: un sevicio


<<de pagox para 10s creadores de paginas web que permite que &as aparezcan
de forma destacada en la lista de resultados.

3. Altavista ha afiadido una prestaci6n para la <<detecciirn de frasesx llamado Ask


Jeeves. Se trata de un servicio que cuenta con una base de dates constituida por
preguntas formuladas por usuarios y respuestas ofrecidas por m&s de cuarenta
redactores.

4. Tambikn se muestra un enlace hacia el directorio principal actualmente de


Altavista, Open Directory Project

5. Por hltimo, el encabezado NAltavista recomiendax conduce a 10s resultados


ofrecidos par el directorio LookSmart para la blisqueda planteada.

Figura 6.2. Pantalla de resultados

Al analizar cada referencia de la lista de resultados se pueden observar tres enlaces


que permiten:

1. Traducir la pagina a otra lengua (Tmnslate)


2 . Recuperar m&s pBginas de ese servidor (More pages frown this site)
3. Obtener informaci6n detallada sobre la empress propietaria de ese servidor web
(Company fcmheef)
Una vez realizada la bcsqueda, se puede ampliar con otro tipo de documentos. Por
ejemplo, supongamos que nos interesa leer las tiltimas noticias sobre el mencionado
conflict0 cubano-estadounidense publicadas en 10s principales medios de comu-
nicaci6n en las liltimas semanas. Pulsamos en la etiqueta News, si queremos ver quk
opina la gente sobre el tema en 10s grupos de discusiSn pulsamos Discussion.

Figura 6.3. Bfisqueda de noticias sobre el tema

El use de la opci6n de biisqueda avanzada debe restringirse a consultas complejas o


con varias condiciones. Pongtionosen el case de desear recuperar phginas web tanto
en espaiiol coma en inglks (para ampliar las posibilidades de localizar informaci6n
pertinente) y, adem&, queremos restrigir la blisqueda linicamente a informaci6n
actualizada. Para ello utilizamos la pantalla de bhsqueda avanzada de Altavista. En
esta ocasidn, la ecuaci6n de bkqueda sera la siguiente: (“United States” OR
“Estados Unidos”) AND Cuba AND Elian AND (child OR niiio). Aqui el buscador
nos pide que indiquemos el criteria que ha de utilizar para ordenar 10s resultados. Esta
es una peculiaridad de la opci6n de btisqueda avanzada de Altavista, puesto que 10s
demas buscadores siempre ordenan automiticamente 10s resultados conforme a un
algoritmo interno. Indicamos coma criteria de ordenaci6n <<Eliam) garantizando asi
que las paginas web donde, adem& de cumplir las condiciones establecidas en la
ecuaci6n de blisqueda, se presente este tkmino de forma destacada o numerosa, nos
serBn mostradas al principio de la lista de resultados. Como ~610 queremos la
informaci6n m8s actualizada indicamos, coma rango de fecha, el que corresponda al
period0 de tiempo al que deseamos limitar la consulta, por ejemplo: 30/02/00 a
30/03/00.
0 RA~MA cAPim.0 6: PRLNClPALES MOTORES DE BriSQUEDA EN PJTERNET 109

k-’ 1
Bc+o Ldirn yn !I* i-h, AYdyvbl -~-~,IB;jl
2, - - Ds!m ,L t.% ~w”% r#% 24 CL z& c% ,m% &
DwGbi 62 http ilWUIi a,lanjla /om>/o, b,nh”D,“ioo=_~Vlhl_Y.bl ri’
altaVISta:SEARCH A

pI.Lo”ylld

,vJnlrCd SEllred,, OR ~~/a/snOs ““ld”I~Y ANY


Bmb”rmN c>,m WD rllan #ND ,shl?b UP ,>>no,
lc.amCDd seam” chea( S”Oel *isno”l~8 SWl”~
rm!e Elk rw
L=ubma my isnpuqe - r **OIorar~PU”wrw.“~
rrm: lbizzir To: I:o,nso /s y 3,,,298)
,,n: ,“idYa”cD” SDd/m,/,“O”nlYD”O~“Pr,d,,dnl,nV,DO”,,DmPn,i,O,”O~,~iearrn””,donl*an,,“~rsi”,,ipni~n,~dra,,dom,”
~~~~~~““‘“‘,“‘“‘““““““‘“‘;‘~“‘“‘”:’””,””~;””””’“““~ (iY~hl~*LD~l,~Ur~~Nnirn”o”ha”seir,lidsa”r,ng
&lr..mt, I.n,imn*“~~nlr.ml-mr!imphl? rnn,,j nh,r,uny)ni-r..“.ri ri
ST& b,nmd

Figura 6.4. Opci6n de blisqueda avanrada de Altavista

Hay prestaciones que estin dirigidas, principalmente, a usuarios con cierto nivel
de experiencia en el use de herramientas de biisqueda. Altavista cuenta con la
posibilidad de buscar informacidn partiendo de determinadas caracteristicas formales,
estructurales, y de ubicaci6n en la red, de las paginas web incluidas en su base de
dams. Este tipo de consultas se han de plantear (tanto en la opci6n de bhsqueda
simple, que es la que aparece por defecto, coma en la de blisqueda avanzada) por
media de diferentes etiquetas de 10s documentos coma ntitulon, <<dominiw, <<urlu,
<<hiperenlace>>, entre otras. Se pueden dar cases diversos. Algunos ejemplos de
blisqueda s&an:

1. Para el tema piginas web en cuyo titulo aparezca la expresi6n atarta de


manzana,,, la formulaci6n de la consulta quedaria de1 siguienre mode: title:
“tarta de manzana”.

2. Para localizar: cu&ntos ordenadores conectados a Internet alojan psginas web


en Espaiia, habria que escribir en la ventana de consulta: domaixes. Si bien es
cierto que actualmente 10s dominios de Internet de1 tipo .com (comercial), .edu
(educaci6n e investigacibn), etc. pueden ser utilizados en las direcciones (URL)
de todos 10s ordenadores conecta&s a Internet y no tinicamente de 10s
estadounidenses, esta bhsqueda nos daria una idea aproximada de la presencia
espafmla en la red, ya que el URL de sus servidores suele acabar en .es.

3. iCuhtos servidores franceses tienen enlaces hacia paginas web espariolas?


+domain:.fr +link:.es en btisqueda simple o domain:.fr AND link:.es en
bhsquedaavanzada.
4. PBginas oficiales de Greenpeace, cuya ecuaci6n sen’a url:greenpeace. Esta
formulaci6n de la consulta se basa en el hecho de que las empresas,
organizaciones, instituciones, etc. tienden a poner en la or1 de sus paginas el
nombre d e &a, extensa o abreviadamente. Por ejemplo, la direcciCln de1
peri6dico El Pais es www.elpais.es, la de Cadena 40 www.cadena4O.es, la
Universidad de Granada www.ugr.es.

5. PBginas web con enlace a las de la NASA linkmasa. Las paginas recuperadas
deberan contener al menos on hiperenlace cuyo URL recoja el tt%nino nasa, lo
que hate suponer que conducirBn a paginas de la Agencia Espacial

6. Imageries de perros, imagedog. Se ha puesto xperrox en inglt?s para aumentar


las posibilidades de localizar imigenes sobre este animal. Mediante la etiqueta
image se buscan piginas que contengan on fichero de imagen llamado xperrox
(dog). Como 10s autores de pziginas o webmasters pueden denominar a sus
ficheros coma les plaza, esta blisqueda no asegura que el contenido de1 fichero
sea el deseado. Por ello, algunas herramientas, entre las que se encuentra
Altavista, cuentan con on buscador especifico de imigenes, sonidos y ficheros
multimedia, mucho m&s recomendable para este tipo de consultas.

Para visualizar cada uno de 10s resultados ~610 hay que pulsar con el rat6n en el
titulo de la referencia recuperada. Si, una vez en la pigina web que se haya
seleccionado, se quiere volver a la pigina de resultados y seguir mirando ~610 hay que
pulsar el bot6n <<At&n o <<Back>> de1 navegador.

Figura 6.5. Buscador de imigenes de Altavista


6.2. EXCITE

6.2.1. Origen de Excite

En febrero de 1993, un grupo de anugos comenzaron a trabajar en un programa que


gestionase la informaci6n existente en la W3. Esta idea condujo a la creaci6n de
Architext Software que m&s tarde se incorpor6 a Excite. Excite y Magellan -una
herramienta de consulta de McKinley Group Inc. de similares caracteristicas-
supusieron en su momenta la llegada de una nueva generaci6n de servicios de
bcsqueda en la W3 (Courtois 96). Su ptiicularidadestribaba en que ofrecian una gran
base de dams, access a la informaci6n mediante categotias temBticas y. ccmo
primicia, la evaluaci6n y comentario -na breve sinopsis del documento realizada
por 10s expertos de Excite- de algunas paginas web de inter&. De esta forma se
puede comprobar rapidamente si esos recursos son relevantes o no a la bhsqueda y si,
en efecto, resultan relevantes, sS10 hay que pulsar el hiperenlace para llegar
directamente a ese servidor web. Diariamente se incorporan nuevas evaluaciones. En
1996 Excite adquiri6 dos de sus competidores, Magellan y WebCrawler, e introdujo
nuevos productos muy apreciados, coma Citynet o Newstracker. Actualmente el
servicio esti formado por una amplia y variada gama de posibilidades.

6.2.2. Descripcih de Excite

Excite (http://www.excite.com, http://www.excite.es), coma la mayor parte de 10s


buscadores internacionales m8s afamados, es una herramienta hibrida: cuenta con un
directorio (Excire Channels) con un mill6n de paginas web organizadas tematicamente
y un buscador propiamente dicho CI search engine, que permite consultar una base de
dates de mb de 125 millones de documentos en un mismo servicio. A trav& de Excite
se puede acceder a una variada gama de servicios: blisqueda de articulos de noticias,
procedentes de diversos medios, que se actualizan “arias veces al dia; canales de
informacibn personalizados y ajustados a las necesidades de cada usuario (My Excire);
blisqueda de personas, negocios, direcciones de correo electnjnico, mapas, etc.;
mensajes de 10s grupos de noticias de Usenet; informaciSn sobre diversos p&es,
regiones y ciudades de todo el mundo, asi coma otros muchos servicios: noticias de1
tiempo y de la b&a, correo electr6nico gratuito, anuncios clasificados o venta de
libros.

El gran cambio experimentado por Excite en 10s tiltimos tiempos ha consistido en


adoptar una presentacibn mediante canales, estructurando gran parte de su contenido
en tome a amplios temas. El directorio de Excite esta formado por 15 canales de
acceso a diferentes tipos de informaciones: Autom&il, Negocios, Trabajo, Infor-
m&ica, Educacidn, Entretenimiento, Familia Juegos, Salud Inversiones, Vida y Estilo,
Bienes Inmobiliarios, Gente, Deportes y Viajes. Estas categorias se subdividen en
otras m&s especificas. El directorio, Excite Channels, muestra bajo cada categoria
temfitica, las referencias pertinentes en orden de relevancia decreciente. De cada
,,2 RECUPERACldN DE LA INFORMACldN EN INTERNET 0 RA~MA

pagina se ofrece el titulo, el URL, el tema bajo el que esta clasificado en el directorio y
el comentario que se ha hecho. Adem& al entrar en cada uno de estos canales se
pueden localizar sitios web de calidad incluidos en la Guia Excite (Exci& Web Guide).
La Guia esta elaborada por expertos de Excite y contiene m8s de diez mil sitios
seleccionados.
El otro modo de consulta se efectfia mediante la base de dates de1 buscador; cuando
el usuario conecta con Excite encuentra la pantalla principal con una ventana de
consulta que admite btisquedas en lenguaje natural, biisqueda por frases, use de 10s
delimitadores + y -, asi coma de 10s operadores booleanos and, or y and not. Para
ecuaciones complejas, las condiciones de blisqueda se pueden agrupar con parCntesis.
Excite organiza 10s resultados en tres grupos: a) encabezamientos tematicos de1
directorio que responden a la blisqueda planteada, b) articulos de noticias de
actualidad relacionados con la consulta, c) p&&s web. De estas hltimas Excite
muestra 10s resultados ordenados por relevancia y permite war las referencias
recuperadas coma ejemplo para ampliar la blisqueda, mediante la opci6n snore like
this link>>. Curiosamente, el programa no informa sobre el nfimero total de resultados
pertinentes en cada blisqueda. Presenta diez referencias cada vez, comenzando con 10s
documentos 1~8s relevantes, de 10s que ofrece el titulo, el URL, un breve resume” de
su contenido y un hiperenlace que conduce a documentos similares a &se. Si se pulsa
la opci6n ccsolamente titulow (Titles only) no se mostrara el resumen, tambien se
puede ordenar por servidores (ordenadores que alojan documentos web) que contienen
paginas web sobre ese tema y acceder a cada uno de ellos para obtener m&s
informaciSn.

Desde la pagina de resultados, Excite permite refinar la blisqueda mediante una


funci6n grifica bastante iitil, Excite Search Wizard. De acuerdo con 10s resultados
obtenidos, el buscador genera din~micamente una lista de temas que se pueden incluir
o excluir de so consulta. Las palabras sugeridas son obtenidas estadisticamente de
entre las recogidas en el indice, comparadas y reunidas por afinidad. De cada p&bra o
grupo de palabras de la ecuaci6n de btisqueda el programa tiene localizados cientos de
tkrminos relacionados, de 10s que muestra 10s diez mzk estrechamente relacionados.
Sin embargo, si se seleccionan demasiados ttkninos para modificar la consulta se
pueden perder documentos con temas relevantes.

Tambikn se puede recurrir a la blisqueda avanrada (More), que consiste en una


interfaz gr&fka donde se indican, mediante ventanas desplegables, si las palabras o
frases de btisqueda pueden, deben o no deben estar presentes en las referencias
recuperadas (can, IWS~, mu~f not). En esta opci6n se puede elegir, adem&, la lengua
de 10s documentos recuperados, el dominio por paises, hasta un total de diecinueve y.
para recursos de 10s Estados Unidos de Amkrica, la direcci6n o dominio, comer&l
(.com), investigaci6n y educaci6n (.edu), organizaciones (.org) , de gobiemo (.gov),
militares (.mil) y de recursos sobre Internet (.net). Permite seleccionar el tipo de
presentaci6n de resultados que se desea; si se quiere que las referencias aparezcan
ordenadas segtin su relevancia a la pregunta planteada o seglin el servidor donde se
encuentran ubicadas. Con el primer m&do de ordenacibn, a saber, segfin su
relevancia, se puede elegir el format0 amplio (tit& y resume”) o el breve (~610 el
titulo), asi coma el ntimero de resultados por pigina. Si se elige la segunda
posibilidad, la lista de resultados se limita a mostrar 10s URL y las referencias
relevantes de documentos ubicados en ese servidor. Permite ver kpidamente quk
114 RECUPERAClbN DE LA lNFORMACl6N EN INTERNET 0 RA~MA

servidores contienen la mayon’a de las paginas web y acudir al servidor con m&
informacibn. En ningtin case admite el truncamiento.

6.2.3. Funcionamiento de Excite

Una de las peculiaridades de Excite es la bfisqueda por conceptos. El buscador


encuentra documentos que contienen las palabras exactas que se han introducido en la
ventana de consulta pero, adem&, busca ideas estrechamente relacionadas con las
palabras de la consulta, lo que denomina Intelligent Concept Extracrion (ICE). La
btisqueda basada en conceptos usa un coeficiente estadistico de interrelaciones entre
palabras. Bassndose en la idea de un tesauro de tkrminos, el buscador puede expandir
la consulta a partir de la palabra clave introducida. De esta manera, no hay que
conocer las palabras exactas necesarias para recuperar documentos relevantes sino que
el buscador, autom&icamente, in&ye tambikn estos tkrminos en las bkquedas (Lager
96).

Cuando presenta 10s resultados de una consulta, Excite muestra, junta a cada
referencia recuperada, un hiperenlace con el texto <cm& coma Me>>. Esta tkcnica de
recuperaci6n se denomina nconsulta mediante ejemplon o query by example. Si uno de
10s resultados responde mejor a la intenci6n de blisqueda, se pulsa ese hiperenlace y el
buscador usa el document0 coma ejemplo en una nueva blisqueda para asi encontrar
otros recursos similares a &se. La bhsqueda se reinicia usando el ejemplo coma una
nueva fuente de informaci6n para la pregunta. Esta blisqueda interactiva da al usuario
m& control sobre el proceso de blisqueda puesto que puede encontrar otros docu-
mentos coma el seleccionado, y 10s resultados recuperados son m8s acertados, ya que
se trabaja con tkrminos m8s cualificados (Sugihara 95). Asi pues, Excite acttia de
forma ainteligentes buscando, no ~610 a partir de las palabras clave introducidas, sino
tambiin, a partir de ideas relacionadas. En la teoria es una herramienta exceptional y
en la prktica ofrece resultados bastante aceptables. Lo que en realidad hate Excite es
extraer 10s tkrminos m8s relevantes que se repiten en un documento. Si esos tkminos
se encuentran cercanos entre si, Excite aplica un an&is estadistico basado en ciertos
algoritmos propios que determinan el tema de1 que trata el documento. La ordenaci6n
de 10s resultados se establece sobre la base de1 coeficiente de relevancia asignado a
cada referencia, generado automaticamente por el buscador, que compara la informa-
ci6n contenida en cada document0 con la ecuaci6n de bfisqueda. Este coeficiente se
express porcentualmente. El 100% indica una mayor confianza en que el resultado
responda a las necesidades informativas del usuario.

6.2.4. Comentarios sobre Excite

Excite ha crecido exponencialmente en prestaciones. Esto tiene coma contrapunto


negative que el usuario puede sentirse perdido si no estudia meticulosamente todas SW
posibilidades. Las expectativas creadas por una herramienta que realiza una bkqueda
por conceptos, que cuenta, adem&, con un directorio de documentos clasificados
tenx%icamente, paginas comentadas y acceso a numerosos servicios extra requieren un
esfuerzo de aprendizaje recompensado por el &to en las blisquedas y la versatilidad
de las aplicaciones disponibles.

Excite responde muy bien a blisquedas sencillas, presentando una interfaz Clara y
eficaz. La blisqueda de paginas relacionadas con las de 10s resultados de la consulta a
veces conduce a servidores interesantes y las p&bras que sugiere para refinar la
blisqueda pueden resultar titiles. Por otro lade, se podrfa perfeccionar la extensi6n de
la consulta mediante conceptos, ICE, asi coma la bfisqueda de documentos relacio-
“ados con las referencias recuperadas (more like this li&). Se ha de mejorar la
informaci6n de ayuda, ya que puede ser dificil encontrar la documentaci6n realmente
necesaria y llega a ser confusa, con demasiados datos y pocos ejemplos de blisqueda.
En cuanto al use de1 directorio, es dificil orientarse en la maraiia de hiperenlaces,
opciones y secciones con las que cuenta cada pantalla por la que se‘ha de pasar. Esto
requiere un estudio detenido de las pantallas de ayuda con informaci6n detallada sobre
el use de 10s canales. A pesar de estas pequefias desventajas, Excite aplica ideas
practicas y originales y es una buena elecci6n para usuarios que requieren un buscador
de gran nix1 que ofrezca resultados precisos y. al mismo tiempo, acceso a servicios
diversos en una sola herramienta.

6.3. HOTBOT

6.3.1. Origen y descripcih de Hotbot

Hotbot (http://www.hotbot.com, http://hotbot.lycos.com), creado por Paul Gauthier


y Eric Brewer, de la Universidad de California en Berkeley, foe desarrollado por
Inktomi Corporation y HotWired y apareci6 en 1996. El prototipo initial,conocido
coma Inktomi, sirvi6 de base al foncionamiento actual. Seglin 10s responsables de
Inktomi, la infraestructura particular de Hotbot permite que sus prestaciones,
arquitectura redimensionable, mayor disponibilidad, buena relaci6n coste/funcio-
namiento y la posibilidad de un use individualizado, superen a las de otros buscadores
(Inktomi 96). Hotbot presenta una interfaz alegre e intuitiva. Al igual que Excite se
trata de una herramienta hibrida: cuenta con un importante directorio y es un reputado
buscador. El directorio, Open Directory, esti constituido por numerosos encabeza-
mientos principales que se subdivide”, je&quicamente, en temas nuis concretes: Arte
y Entretenimiento, Negocios y Dinero, lnformatica e Internet, Juegos, Salud, Casa y
Familia, Noticias y Medios de comunicaci6n, Regional, Ciencia y Tecnologfa,
Sociedad, Deportes, Viajes y Ocio y un complete apartado de Obras de Referencia.
Ahora, HotBot se encuentra dentro de la red Lycos.

En so faceta de buscador, Hotbot es uno de 10s que cubren m&s URL, en torno a 10s
110 millones, ha logrado una popularidad significativa y ha asentado su posici6n en
las preferencias de 10s usuarios. Es un buscador potente y bien disecado, con una serie
servicios afiadidos de gran utilidad. Cuenta con operadores booleanos y opciones de
blisqueda ciertamente innovadoras y originales, numerosas bkquedas mediante
etiquetas y varies tipos de tnmcamiento, y diferentes formatos de presentaci6n. Todas
las opciones disponibles, que son muchas, es& presentadas claramente mediante
ventanas, mentis desplegables y botones. Aunque no admite el use de operadores de
proximidad y su lista de palabras vacias es problematica para algunas btisquedas,
ofrece caracterkticas adicionales poco comunes en el resto de las herramientas de
consulta: la posibilidad de configurar las opciones de btisqueda, y es Gnico en cuanto a
la bfisqueda de ficheros con caracteristicas multimedia especificas. Tambikn se puede
limitar la btisqueda por pais o por nombre de dominio en Internet. Asimismo permite
consultar millones de mensajes Usenet recientes.

Figura 6.8. Pantalla principal de Hotbot

La pantalla principal presenta una ventana de consulta donde se puede indicar si es


necesario que todas las palabras de la ecuaci6n de blisqueda se encuentren en el
documento (all rhe words), si es suficiente con que aparezcan algunas de ellas (any of
the words), si han de aparecer en el titulo de la pigina(the page title), si se busca una
frase exacta (exact phrase), una persona (the person), paginas que contengan enlaces
hack ese URL (links to this URL) o si la ecuaci6n de btisqueda es una expresi6n
booleana (boolean phrase). En este filtimo case se pueden elaborar ecuaciones tan
complejas coma sea necesario mediante 10s operadores Mgicos y el use de parkntesis.
Tambikn se pueden war 10s modificadores + y , la b6squeda por frases exactas
marcadas por comillas y el use de truncamientos a la izquierda (*man recupera
documentos que contengan la p&bra man, woman, Spiderman, Omdn, etc.) y a la
derecha (cornput” recupera documentos que contengan la p&bra computador,
computer, computation, computacidn, etc.). Permite seleccionar la lengua de 10s
recursos recuperados y el me&o: imagen, video, ficheros MP3 o JavaScript. Se elige si
se quieren ver diez, veinticinco, cincuenta o cien resultados y en qu6 formato:
descripci6n completa (tit& relevancia, resumen, URL, tamaAo de1 documento en
bytes y fecha), descripcibn breve (con un resumen m&s reducido) o ~610 el URL, sin
descripci6n. El resumen se obtiene de las cien primeras palabras de1 documento.
Hotbot tambiin permite a usuarios m8s expertos el use de un gran ntimero de etiquetas
para las blisquedas, es decir, condiciones no relativas al texto de 10s recursos sino a
otras caracteristicas de 10s mismos, coma, par ejemplo:

1. Un dominio concrete o domain.

2. Que incluyan una determinada caracteristica referida a un tipo de media


concrete (feature), coma feature:acrobat que detecta ticheros Acrobat;
featurexzpplet que detecta aplicaciones Java; featurmctivex que detecta
controles o presentaciones con Active X; feature:audio para buscar diferentes
formatos d e a u d i o ; feature:shockwYave para archives d e S h o c k w a v e ;
feature:table para buscar documentos con tablas en HTML; featurcvideo que
detecta diferentes fonnatos de video; feature:vrml para xchivos VRML; etc.

3. Restricci6n de btisquedas a paginas que contengan archives con la extensidn


especificada mediante la metaetiqueta outgoingurlext:[extension]. Por ejemplo,
outgoingurlent:ra encuentra paginas que contienen archives de RealAudio

4. Restricci6n de btisquedas a paginas que contienen JavaScript or VBScript


mediante la metaetiqueta scriptlanguage: [language] PBginas de1 nivel
indicado depth:[number]

5. Documentos creados o modificados antes (before), o despues de la fecha


indicada (after), o dentro de un period0 de tiempo determinado (within).
Palabras de1 titulo o title.

La opci6n de btisqueda avanzada incluye &os y otros parzimetros que pueden


usarse de forma m& ficil mediante menlis. Algunas de las m;is destacadas son:
localizaci6n par dominio (wiredxom, doj.gov), dominios de nivel superior (.edu,
.com), c6digo de1 pais (uk, .fr, .jp) o continente especifico; elecci6n de1 tipo de media
de1 documento recuperado (imagen, Java, Acrobat, audio, JavaScript, VBScript, video,
Activex, Schockwave, RealAudio, VRML, MP3); nivel de pagina (cualquiera, la
pagina principal, una pagina personal o una pagina de nivel uno, dos, tres, etc.) y
la activaci6n o no de1 tnmcamiento automatico o stemming. Permite delimitar la
blisqueda par la fecha de incorporaci6n de1 documento a la W3 (cualquier moment@
en la liltima semana, en las dos tiltimas, en el tiltimo mes, tres meses o seis meses, en
el liltimo afio o en 10s dos dltimos afios). La fecha de las referencias de 10s
documentos es la de su tiltima modificaci&, si &as no la indican, Hotbot usa la
tiltima fecha en que la araiia de1 buscador indiz6 el documento.
Hotbot indica Gnicamente el niimero aproximado (y no exacto) de resultados
totales para cada consulta. Las bhquedas se pueden refinar (refine your search) o
acotar sobre 10s resultados obtenidos (search within these results). Tambih es posible
modificarlas ahadiendo, excluyendo o sustituyendo thninos de blisqueda adicionales
de la ecuacih original (revise search) o reformularlas (new search) directamente
desde la pagina de resultados. La pigina de resultados presenta enlaces con recursos
relacionados con la consulta planteada para la btisqueda de personas, viajes, libros,
etc. Muestra categorias de1 directorio afines al tema de bhqueday pighas web de la
base de datos de Hotbot. La ayuda ofrece informacih muy completa. Hotbot propor-
ciona acceso a una amplisima gama de servicios ariadidos: bhsquedas en grupos de
discusih, noticias, direcciones de correo electrhico, compras, y. en definitiva, todo
lo relacionado con el negocio y el ocio.

Figura 6.9. Pantalla de bhsqueda avanzada de Hotbot

6.32. Funcionamiento de Hotbot

Hotbot utiliza una tecnologia con recursos informiticos en paralelo, network of


workstations o NOW, desarrollada por Inktomi Corporation. Slurp es el robot, la araiia
de Hotbot, y usa la tecnologia SmartCrawl. Busca continuamente en la Web
documentos nuevos o modificados, examina cada palabra de esos documentos y afiade
esta informacih a la base de datos de Hotbot. Slurp examina diez millones de
documentos al dia y cada tres o cuatro semanas recorre la W3 completa.
Hotbot se acoge a las norrnas relativas a las metaetiquetas keywords, description,
author y robots. Estas etiquetas le dan a 10s creadores de paginas web algtin control
sobre el modo en que se& indizadas sus paginas en la base de datos y ordenadas en
10s resultados de btisqueda. En cuanto a la ordenaci6n por relevancia, a cada
document0 de la lista de resultados Hotbot le asigna una puntuaci6n. En general, a 10s
documentos se les asigna una puntuaci6n de relevancia mayor si son de tamafio
modesto y contienen las palabras de bhsqueda en partes destacadas. La puntuaci6n,
expresada porcentualmente, representa la confianra de Hotbot en la coincidencia entre
lo pedido y 10s documentos encontrados. La puntuaci6n de todas las btisquedas esta
<<normalizadan, de forma que al mejor resultado de cualquier bhsqueda se le da una
puntuaciSn de1 99%. Para asignarla se tienen en cuenta varies aspectos: la frecuencia
de la palabra en el document0 -aunque las p&bras muy comunes reciben menor
puntuaci6n que las palabras raras y significativas--, la presencia de las palabras clave
en el titulo, en la metaetiqueta keywords, la longitud de1 documento y. si Hotbot
detecta la intenci6n de algunos creadores de paginas web de engafiar al buscador para
situar su documento en mejor posicibn, lo hate descender en la lista de resultados.

6.3.3. Comentarios sobre Hotbot

El mercado de buscadores de paginas web es competitive y exigente. Para destacar


no ~610 es necesario tener una excelente base de datos y rapidez en las btisquedas, sino
una oferta importante de servicios afiadidos, asi coma una gran versatilidad a la hora
de plantear las consultas. Hotbot es an servicio de bfisqueda con herramientas graficas
intuitivas y potentes, y opciones de filtro litiles para principiantes y para usuarios
avanzados. Esto hate que se le haya considerado al mismo nivel que servicios ya
cMsicos y reputados de la red e in&so haya triunfado sobre muchos de ellos.

6.4. INFOSEEK/GO.COM

6.4.1. Origen y descripcih de InfoseeWgo.com

En enero de 1994, Steve Kirsch, tras inventar el rat6n dptico, fund6 su tercera
empress, Infoseek, con el objeto de ayudar a la gente a ccdesatar el poder de Internet>>.
Infoseek (http://www.infoseek.com, http://infoseek.go.com), desde principios de 1995,
es uno de 10s buscadores m8s conocidos y utilizados de la W3. El antiguo Infoseek
Guide ~610 contaba con uno o dos millones de URL indizadas. En junio de 1996,
Infoseek Corp. adopta la tecnologia de Rank Xerox para crear un buscador llamado
Ultraseek que permitia actualizar ripidamente la informaci&, realizar btisquedas por
la raiz de una palabra en varies idiomas y atender 1000 preguntas por Segundo. En
1997 Infoseek incorpor6 canales de contenido que permitian a 10s usuarios acceder
cdmodamente a diversas Areas de inter& y, al ario siguiente firma una alianza con
Walt Disney, lo que conduce a la creaci6n de1 portal Go Network, diseiiado para ser
<<no ~610 un punto de partida para 10s internautas sino, sobre todo, un destinon.
Infoseek utiliza el robot Ultraseek Server para compilar una base de datos de texto
complete que recoge varias decenas de millones de URL con actualizaci6n frecuente,
a la que se afiade la posibilidad de acceso a paginas web mediante categotias
jerarquicas de materias y <<canales inteligentew. Infoseek es una herramienta muy
popular en Internet debido a varias razones: por una parte se trata de un servicio de
btisqueda sencillo y potente que permite, tanto a 10s usuarios noveles coma a 10s
experimentados, encontrar informaci6n f&cil y rzipidamente; por otra parte cuenta con
uno de 10s mayores directories de paginas web; y. adem&, incluye un directorio de
recursos evaluados por expertos (Co Guides).

Figura 6.10. Pantalla principal de Infoseek

6.4.2. Funcionamiento de go.com

Como es habitual, este buscador presenta las opciones de blisqueda simple y


avanzada. Con la opci6n de btisqueda simple se puede seleccionar el tipo de fuentes
que se quiere consultar: la W3 completa, por temas de1 directorio, im&genes, noticias,
empresas y grupos Usenet. Admite modificadores (+ y -) y blisqueda por frases y en
lenguaje natural. Su base de datos no tiene lista de palabras vacias, por lo que se puede
utilizar cualquier palabra en la consulta. En marzo de 1998 Infoseek afiadi6 una pagina
de blisqueda avanzada permitiendo asi a 10s usuarios noveles hater mejor use de sus
potentes prestaciones.

En la bfisqueda avanzada (search options) el usuario puede restringir su consulta a la


W3 completa o a algunos de 10s canales, por titulo y URL o bien limitando las
ORA-MA CAPiTULO 0: PRlNClPALES MOTORES DE BljSQUEDA EN INTERNET I? I

btisquedas a aquellas paginas que tengan un enlace hacia la que indique el usuxio
(hyperlink). Permite war 10s operadores must, should y should nor, decidir el formato de
presentaci6n, con o sin resumen, y el ntimero de resultados por pigina. Cuenta, adem&,
con la posibilidad, no muy frecuente, de restringir la bdsqueda a alguno de 10s veinte
paises contemplados por el servicio, a diecisiete zonas geogrificas diferentes o a uno de
10s cinco dominios incluidos: .com, .edu, .gov, net y .org. Tambikn se pueden excluir
10s resultados provenientes de un determinado dominio. En ningtin case admite el
tnmcamiento ni el use de 10s ya tradicionales operadores booleanos. La bfisqueda puede
refinarse limittidolaal subconjunto resultante de la bfisqueda anterior y personalizarse
contemplando 10s intereses especificos de 10s usutios. Los resultados aparecen
ordenados segcn su relevancia y muestran el valor de &a para cada referencia
recuperada expresada porcenhmlmente. Hay dos formatos de presentacibn: el estandar
(que recoge el titulo, las primeras palabras de1 docurnento a mode de resumen, la
puntuaci6n de relevancia, el URL y el tamafio en Kb) y otro format0 sin resumen.

La pagina de resultados se organira en torno a tres Areas principales: El irea de


blisqueda al principio de la pigina contiene una ventana de consulta donde se puede
delimitar la btisqueda a 10s resultados obtenidos o comenzar una nueva. Con
frecuencia presenta una serie de btisquedas similares que pueden utilizarse para refinar
la biisqueda. La siguiente Qrea indica categorias tematicas relacionadas, si se pulsa nos
conduce a recursos evaluados por 10s expertos de Infoseek de1 directorio Go Guides.
En &te se in&yen paginas web seleccionadas por su calidad, por lo que puede ser
muy litil comenzar ahi la exploration. Por liltimo aparecen 10s resultados de bhsqueda
en la gran base de dams de Infoseek de 10s que se listan las primeras diez paginas web
que coinciden con la bhsqueda. Esta lista de resultados esta encabezada por varies
enlaces destinados a establecer el formato y orden de las referencias, es decir, se puede
optar por: ordenar por fecha (serf by date) de forma que 10s documentos m&s recientes
apareceran en primer lugar; eliminar 10s reslimenes de la lista de resultados (hide
summaries); ver todos 10s resultados de un mismo servidor (ungroup results). Las
p&bras clave de la blisqueda aparecen marcadas para que sea f&i1 detectar en 10s
resultados. Cada referencia muestra enlaces hacia pBginas similares, hacia otros
documentos alojados en ese mismo servidor o para traducir la pigina.

Coma se ha mencionado, uno de 10s puntos fuertes de este servicio de blisqueda es su


directorio de recursos w&ados (Go Guides) que cubre aproximadamente 500.000 de
las mejores paginas existentes en la W3. En 10s canales de informaci6n clasificados por
mater& a 10s que se tiene access predominan 10s temas de ocio y entretenimiento:
Audiovisuales, Autonxjviles, L a b u e n a vida, Compras, Deportes, Entretenimiento,
Familia, Juegos, Nirios, Viajes, aunque tambikn abxca temas crxno Dinero, InformAttica,
Negocios, Noticias, Mud, Trabajo y otros. Bajo cada categoria de1 directorio se
muestran subdivisiones m8s especificas y el s e r v i c i o siempre orienta a l usuario
indicandole en qu6 lugar de1 directorio se encuentra en cada momenta. Al principio de la
pigina principal hay una ventana de consulta donde se pueden plantear bfisquedas
dentro de un canal especifico (topics) o en diferentes partes de la red. Las piginas
recomendadas por Infoseek se indican explicitamente con una s&al identificativa.
122 RECUPERACIClN DE LA INFORMACION EN ,NTERNET ORA-HA

Debido a que son personas, y no on ordenador, 10s que compilan, seleccionan y evahian
la informaci6n, aqui ~610 aparecen las paginas web que sobresalen por so calidad.

Figura 6.11. Resultados de go.com para &uerra Civil Espafiolax

Adem& de consultar el directorio directamente, otra forma de acceder a 151 es a


partir de la pagina de resultados, ya que, cuando se realiza una bhsqueda, se muestran
recursos procedentes de ambos directories asi coma de la W3 completa. El personal de
Infoseek selecciona 10s recursos de mayor calidad y 10s evahia seglin la siguiente
escala: el mejor (lo coal se indica con tres estrellas), muy bueno (dos estrellas) y
bueno (el resto). Los mejores sitios seleccionados se premian en funci6n de so
contenido, utilidad, actualidad, originalidad e impresi6n general que ofrezcan.

Infoseek cuenta con diez servicios internacionales, para Alemania, Brasil,


Dinamarca, Espafia, Francis, Italia, Jap6n, M&ico, Pa&es Bajos, Reino Unido y
Suecia, donde, lbgicamente, se presta m&s atenci6n a informaciones nacionales. Estas
versiones nacionales presentan la interfaz y las pantallas de ayuda en la lengua
mayoritaria de esos pa&es. Mediante estos servicios se pueden plantear las bhsquedas
para toda la Web o restringirla a alglin pais, de entre un total de veinte.

Mediante Infoseek se accede a una extensa y variada gama de servicios de gran


utilidad: mapas, direcciones, paginas amarillas, piginas blancas, el tiempo,
hor&copos, anuncios, servicio de traducc%n, conversaci6n (chats), bhsqueda de
grupos Usenet (mediante DejaNews), de negocios (mediante Big Yellow), de m& de
11.000 empresas de todo el mundo (servicio que ofrece Hoover’s Online), de imageries
y fotografias (servicio ofrecido por Interpix), de direcciones de aproximadamente 70
rnillones de ciudadanos norteamericanos y de direcciones de correo electrhico
pertenecientes a usuarios de todo el mundo. Tambihincluye una importante seccih
de referencia con una coleccih de recursos de informacih litil coma el diccionario
Webster’s.

Figura 6.12. Btisqueda avanzada en go.com

El 14 de enero de 1998 el Laboratorio de Fisica de las Particulas de1 CERN,


creador de la W3, anunci6 la eleccih de1 servidor Ultraseek de Infoseek Corporation
coma so aplicacihde blisqueda intranet y de servicio ptiblico, lo que sin duda supuso
una buena publicidad para Infoseek. El servidor Ultraseek esti basado en la tecnologia
de btisqueda en lfnea en la W3 que proporciona a Infoseek resultados bastante fiables,
tiempo ripido de respuesta y fhcil manejo. lnfoseek gestiona de forma independiente
por on lado el directorio temstico, en el que 10s documentos se organizan e indizan por
materias de manera autom&ica y, por otra parte, la gran base de dates de cincuenta y
cuatro millones de URL compilada por el robot tambih automz%icamente. Ademh,
10s creadores de paginas web pueden incorporar sus documentos Bgil y eficazmente.

Infoseek ordena 10s resultados bashdose en varies factores que incluyen la


frecuencia y la localizacihde las palabras claw de la biisqueda en 10s documentos.
Las listas de resultados remiten a tunas relacionados y a articulos de noticias incluidos
en el directorio de Infoseek. Este buscador casi siempre ofrece informacih 6ti1,
aunque debe mejorar el tiempo de realizacihde las blisquedas y la calidad de 10s
resultados para las bhquedas restringidas a zonas geogrificas concretas.
121 RECUPERACi@4 DE LA INFORMACKiN EN lNTERNET

6.4.2. Comentarios sobre Infoseek

Desde que surgi6 el primer directorio tematico de Infoseek (Infoseek Guide), este
servicio de btisqueda ha sufrido altibajos en calidad y v&men de usuarios pero, en la
actualidad, el directorio y buscador Infoseek se ha superado a si mismo y constituye
una herramienta muy versAti1. Ofrece muchas prestaciones adicionales litiles, incluida
la entrega de noticias por correo electr6nico y la traducci6n de su interfaz y las
pantallas de ayuda a diversas lenguas. Tambien tiene recursos especificos para
distintas &as geogrLficas. El motor no discrimina entre mayrisculas y minhsculas,
pero permite btisqueda de frases, de conceptos relacionados y de nombres propios,
producienda resultados muy relevantes. En resumen, es ficilde war y cuenta con una
buena interfaz, la ayuda es simple y Clara y se ofrecen ejemplos de btisqueda. Es una
muy buena herramienta que concentra diferentes opciones para satisfacer diversas
necesidades.

6.5. LYCOS

6.51. Origen y descripcih de Lycos

Lycos (http://www.lycos.com, http://www.lycos.es), uno de 10s servicios de


blisqueda m8s antiguos de la W3, surgi5 en la Carnegie Mellon University de la mano
de1 Dr. Michael Mauldin de1 Center for Machine Translation, instituci6n dedicada a la
investigaci6n y desarrollo de programas de traducci6n automitica. Este Centro
contaba con una gran base tecnol6gica de recursos sobre procesamiento de1 lenguaje
natural, algoritmos, tkcnicas y gran experiencia en ese campo. Corn0 la W3 se ofrecia
coma una gran base de dabs de notable inter&s para sus proyectos, decidieron aplicar
10s mktodos que utilizaban para el procesamiento de1 lenguaje natural a 10s problemas
de recuperaci6n y organizacidn de la informacid”. Lycos se dio a conocer en el vera-
no de 1994, cuando la arafia diseiiada por John Leavitt y Eric Nyberg, originalmente
denominada Longlegs, se vincul6 al programa de indizaci6n desarrollado por Michael
Mauldin. Segtin su creador, la palabra Lycos proviene de la familia de arzcnidos
Lycosidae, arafias terrestres relativamente grandes que atrapan a su presa persi-
gui&ndolas, en lugar de esperar a que caigan en su telarafia. Estas arafias se carac-
terizan por su velocidad y por ser especialmente activas por la noche. En opini6n de
sus diseiiadores, Lycos responde a esta descripci6n.

Pronto se convirti6 en uno de 10s buscadores preferidos por 10s usuarios, ya que
ofrecia la posibilidad de consultar un catBlogo relativamente grande mediante palabras
de1 contenido de1 documento. Cuando Netscape Navigator fue lanzado ampliamente al
mercado a finales de 1994, el personal de Netscape Communications Corporation
incluy6 una pagina que ofrecia acceso a varias herramientas de blisqueda en Internet.
Realizaron una rapida y poco refinada prueba y decidieron que Lycos era el que
ofrecia mejores resultados, por lo que optaron por presentarlo el primero de la lista de
buscadores (Notess 95). La amplia utilizaci6n de este navegador provoc6 una fama
0 W-MA CAPfTUI.0 6: PRlNClPALES MOTORES DE F3irSQUED.A EN INTERNET 125

creciente para Lycos, que in&so lleg6 a sufrir problemas de sobrecarga, pero sirvi6
para impulsarlo definitivamente comc~ uno de 10s primeros grandes en la historia de
10s localizadores de pBginas web.

Actualmente Lycos es un buscador producido por Lycos Inc. que, segfin dates
obtenidos de la interesante pigina web de D. Sullivan (99), indiza autom&ticamente 50
millones de URL con una actualizaci6n semanal y permite realizar consultas tomando
coma base toda la W3 o bien determinado tipo de ficheros e informaciones: grupos de
discusi6n, noticias, el tiempo, ciudades, compras, libros, recetas, FTP, mhsica,
imigenes, sonidos, pfiginas personales, entre otros. Cuando el usuario conecta con el
buscador encuentra la pantalla de biisqueda simple con una ventana o caja de
bfisqueda en la que plantear la consulta.

6.52. Funcionamiento de Lycos

En la pantalla de btisqueda, el operador por defecto es and pero se pueden utilizar


(el signo xrnenos, para excluir de1 documento una palabra de la ecuaciirn de
bcsqueda), o + (signo GIXI~B para obligar a que estk presente en el documento ese
tkmino). No realiza el truncamiento autom&ico de todos 10s ttkminos de bkqueda.
Admite el use de 10s operadores 16gicos ~ys (all the words, &, and), w.m (any of the
words, I y or) y el operador xnox (!, not).

Figura 6.13. Pantalla principal de Lycos


/ 26 RECUPERACION DE LA INFORMAClhN EN NrERNET 0 RA~MA

Lo m8s destacable, sin embargo, quiza sea la amplia variedad de operadores de


proximidad posibles:

1. Near para indlcar la proximidad entre dos ttkminos de bfisqueda,


separados por hasta 25 p&bras, garantirando asi que es& relacionados
entre si y. por tanto, en el context0 que interese.

2. Far, opuesto a near, para indicar que 10s t6minos habran de estar
separados, coma minimo, 25 p&bras entre si en el documento
recuperado, al menos en un case.
3 . B e f o r e funciona coma and, pero 10s t&mnos ae la pregunta han de
aparecer en el orden que indicamos, si bien pueden estar a cualquier
distancia entre si en el documento.
4. Adj, para tkrminos adyacentes en cualquier orden.

Por ejemplo, si queremos buscar informaci6n sobre Kennedy, podemos plantear la


siguiente ecuaci6n de blisqueda <John Neal Kennedya. De esta forma, encontraremos
paginas web donde el nombre aparezca coma John Kennedy; John Fitzgerald
Kennedy; John F. Kennedy; pero tambikn coma Kennedy, John F. o Kennedy, John
Fitzgerald.

Las capacidades de ordenacl6n de before s e pueden aiiadtr a adj, near y jar,


siempre que vayan precedidos de la letra 0 (ordenar): oadj, onenr, afar. Por defecto,
10s operadores near y far usan 25 palabras para asegurarse de que 10s t&minos de
btisqueda aparezcan a distancia apropiada el uno de1 otro. Podemos modificar esto
afiadiendo una barra / al operador seguido por el nlimero que hemos elegido como
mBximo o minima entre 10s t&minos de blisqueda: near/n, adj/n, far/n. Tambikn se
pueden combinar onear/n, o&/n, ofarh. Siguiendo con el ejemplo anterior, la
ecuaci6n podria ser <<John near/l Kennedya, de manera que 10s dos ttkminos de la
bhsqueda puedan estar separados por un m&ximo de una p&bra entre ellos para
asegurar que corresponden al nombre de ese personaje (y no forman park, por
ejemplo, de un listado de nombres de diferentes personas).

Para btisquedas de expresiones exactas se encierra la expresi6n entre comillas


inglesas CC CC. En ecuaciones de btisquedas complejas con varies tkrminos de blisqueda
y operadores &tos se pueden agrupar usando 10s sfmbolos (, {, [ y <. Por ejemplo,
para el tema, recetas de tam de pera o de manzana que no contengnn mom la
ecuaci6n de btkqueda podrfa ser “(receta AND ftarta OR pastel) AND (pera OR
manzana)} AND NOT mora”.
Lycos dispone de una opciirn de bkqueda avanzada, Lycos Pro, que permite
personalizar las btisquedas. Una vez que se ha introducido la consulta y se ha elegido
el tipo de combinacidn entre 10s tkrminos de la ecuaci6n (es deck, exigir que e&n
presentes todas las p&bras en las paginas web recuperadas, o ~610 alguna de las
palabras o que dicha expresi6n constituya una frase exacta), podemos refinar la
blisqueda atendiendo a cuatro criterios:
IPj J,
Figura 6.14. Pantalla de bfisqueda avanzada de Lycos

1. Contenido: Esta opci6n permite seleccionar el context0 en el que interesa


localizar la informacibn que describimos en la caja de blisqueda o ventana de
consulta. Es decir, si se pretende localizar libros para comprar se ha de marcar
la opci6n <(Books>, para informacibn y mapas de ciudades <Cities>>, para
definiciones (<Dictionary>>, para ficheros de mlisica MP3, <<Music>>. Adem&, se
indicara el titulo de1 libro a comprar, el nombre de la ciudad, la palabra a buscar
en el diccionario o el nombre de1 grupo musical, respectivamente. Para ver
resultados globales, relatives a todos esos aspectos, se ha de elegir <<All the
Web>>.

2. Bhqueda par etiquetas: Permite buscar pSiginas con determinado contenido en


el titulo (title), en la direcci6n (URL), en el nombre de1 servidor o en el
dominio.

3. Lengua: Permite restringir 10s resultados a una lengua determinada de entre


veinticinco posibles.

4. Hiperenlaces: Tambikn se puede saber qu6 paginas contienen un enlace ha&


otra cuya direcci6n completa o nombre de servidor conozcamos y que cumplan
unas determinadas caracteristicas. Esto sirve para medir la popularidad y. al
menos tebricamente, la calidad de determinados recursos. Pero, posiblemente, la
utilidad principal de esta prestaci6n es que facilita la recopilaci6n de paginas
que abordan temas afines. Por ejemplo: para saber las pBginas que hablan de la
radio o de 10s medios de comunicacidn y poseen enlaces que conducen a
informacidn sobre la Cadena Ser. introducimos en la ventana de consulta: radio
128 RECUPERACI6N DEINFORMAClbN
LA EN INTERNET 0 RA~MA
~~~edios de comunicacidn~, (eligiendo la opciCIn xcualquiera de las palabras de
biisqueda,,) y en URL: www.cadenaser.es

Figura 6.15. Pantalla de resultados de Lycos

Lycos organiza 10s resultados de blisqueda en torno a varies grupos de referencias.


En primer lugar, bajo el encabezamiento <<Popular>> muestra recursos muy conocidos
relacionados con esa consulta y seleccionados por el equipo de Lycos. Esta prestaci6n
no esta disponible para todas las btisquedas. A continuaci6n se presentan 10s
resultados obtenidos de la base de datos de Lycos, compilada automaticamente por la
arafia, y de recursos seleccionados por 10s editores de1 directorio Open Directory. Las
referencias aparecen en 10s apartados: Sitios web, Articulos de noticias y Compras.
Los enlaces uMBs sitios web>> (More Web Sites) y ((MBs articulos de noticiasx (More
News Articles), situados al final de la pagina de resultados, remiten a recursos
adicionales en estas &as.

El servicio ha ido mejorando progresivamente. El directorio, Open Directory, que


tambitk es el de otros buscadores coma Hotbot, es uno de 10s puntos fuertes de
Lycos. Por otro lado, Lycos ofrece servicios muy diversos de gran utilidad. Cuenta
con versiones reducidas de1 buscador original en diferentes puntos de Europa
(Alemania, Bilgica, Espafia, Francis, Italia, Irlanda, Paises Bajos, Reino Unido,
Suecia y Suiza), Amkrica y Asia, con la interfaz traducida a la lengua mayoritaria en
esos pa&es, donde se pueden realizar bfisquedas restringidas de carkter national. Al
conectar con Lycos desde cualquier punto de la geografia espaiiola, t%te nos conduce
directamente al servidor que cuenta con la versi6n para Espaiza de forma que, desde
Figura 6.16.Versi6n espafiola de Lycos

Lycos construye su base de dams de forma acumulativa, m8s que reconstruirla


peri6dicamente. Al actualizar l a informaciSn d e 10s nuevos URL y d e 10s y a
existentes, el programa crea una medida de la popularidad de cada servidor web
teniendo en cuenta el nlimero de enlaces que sefialan a ese servidor. Al ejecutar cada
bhsqueda, el motor usa este indice de popularidad y basa, parcialmente, la relevancia
de cada referencia recuperada en la popularidad relativa de ese servidor web. Para
recopilar la informaci6n que m&s tarde indiza e in&ye en su base de dams, la arafia de
Lycos utiliza un esquema probabilistico para saltar de un servidor web a o&o. Esto
evita sobrecargar cualquier servidor con gran cantidad de peticiones y tambi& permite
a Lycos dar preferencia a 10s URL considerados m& informativos.

6.53. Comentarios sobre Lycos

Lycos cuenta con una presentaci6n atractiva y simplificadora. Sin embargo, las
diferencias entre la versi6n principal (la norteamericana, www.lycos.com) y las
versiones n&males quiza conduzcan a crear una ligera confusi6n entre 10s usuarios
menos familiarizados con el servicio. Lycos cuenta con ayuda suficiente y fkilmente
localizable para realizar las btisquedas. Su interfaz es Clara y orienta bastante bien al
usuario. Sin embargo, se echa en falta m&s informacibn sobre la historia de1 buscador,
el m&do de indizaci0n utilizado, el funcionamiento del robot, etc. En resumen, Lycos
es un buscador que ha ido adaptandose al crecimiento de la W3 y a las exigencias de
10s usuarios. Si bien 10s resultados no son siempre 6ptimos en cuanto a niimero y
calidad, es una buena herramienta, por su facilidad de “so, para un primer acer-
camiento a 10s motores de b6squeda y cuando no se pretenden resultados exhaustivos
ni muy extensos. Con las opciones de b6squedas nacionales ha mejorado so atractivo

6.6. NORTHERN LIGHT

6.6.1 Origen de Northern Light

Segfin sus responsables, Northern Light (http://www.northemlight.com/) surge para


solventar el gran problema de la W3: nhay demasiados datos pero no hay hastante.
informacidnx, por lo que esta herramient~pretende .co@rlbulr a resolverlo, mejorando
y facilitando a 10s usuarios el acceso a recursos rc!e~~i~~uaeaitaca!ldad. Para
superar l a s carencias d e 10s buscadores convencionales (a saber, presentan la
informaci6n recuperada de forma no organizada, acusan la falta de calidad de la infor-
maci6n en la W3 y. la que si es de calidad, frecuentemente la ofrecen mediante
suscripci6n), Northern _Li& proponem$IM &Bdo__~L.q~...~&aJa
informaci6n eiTxT@etas personalizadas d e btisqueda>> integrando 10s resultad_os
obtenidos de la W3 con material de la &olecci6n especial,, de1 buscador.

6.6.2. Descripcibn y funcionamiento de Northern Light

Northern Light permite buscar en la W3 y en informaci6n procedente de una


colecci6n de 15 millones de documentos que provienen de 250 fuentes distintas, de
7> esta forma, medial&~llna linica bfisqueda, se tiene acceso_a_.re~~~~.~web,pero
tambikn a libros, revistas de texto complete, bases de dates, noticias y obras de
consulta dificilmente disponibles desde cualquier otro buscador.

Al plantear la consulta desde la pantalla principal, la bksqueda se puede limitar a


toda la Colecci6n especial de Northern Light, o a apartados especificos de esa
Coleccidn especial, o a 10s recursos de la World Wide Web o a todas 410s. Ademk
de1 reconocimiento autom&tico de plurales, se puede realizar el truncamiento mediante
dos simbolos: el asterisco (*) y un signo de porcentaje (%). El primer0 se utiliza para
el truncamiento ilimitado, es decir, para buscar palabras con una parte o raiz conk y
el segundo, representa cualquier carkter linico. Pueden usarse coma truncamiento
interno o final, pero debe aparecer un minima de cuatro caracteres antes de1 signo de
truncamiento para poder usarse. Por ejemplo, traduce recuperara documentos que
contengan el t&mino traduccibn, traducciones. traducir, traductor, traductora,
traducibilidad, traducible.
Figura 6.17. Pantalla principal de Northern Ligth

Desde la option de bfisqueda avanzada hay dos ventanas de consulta, una por si se
desea buscar en la base de dates de recnrsos web y otra para consultar la Colecci6n
Especial de Northern Light. En la primera se permite la blisqueda por campos para
palabras de1 tftulo y palabras incluidas en el URL. En la segunda ventana se puede
limitar al titulo de una publication especffica de la Coleccion especial. El limite de
fecha puede ser un periodo de tiempo o indicando antes o despues de una determinada
fecha; cuenta tambien con una option para ordenar 10s resultados por fechas.

Para delimitar por fuentes mnestra varias divisiones como periodicos y revistas.
noticias, recnrsos web educativos, paginas personales y recnrsos gubemamentales. El
limite de lengua esta disponible para el ingles, franc&, espafiol, aleman e italiano. La
blisqueda avanzada incluye la capacidad de restringir 10s resultados a 10s servidores
web de 10s paises seleccionados. Las categotias generales de materias pueden nsarse
para limitar el volumen de resultados recuperados. Los limites por tipos de docu-
mentos incluyen information empresarial, material de aprendizaje, directories y listas,
notas de prensa, preguntas y respuestas, etc.

Los resultados recuperados se ordenan seglin sn mejor coincidencia con la pregunta


planteada y se organizan en Carpetas que ayudan a centrar las bnsquedas. La
Colecci6n especial abarca una amplia gama de fuentes cuyo contenido se puede
consultar integrandolo con el de la W3 o de forma independiente. Actualmente, cnenta
c o n q u i n c e millones d e documentos individuales d e texto complete y afiade.
aproximadamente, doscientas cincuenta nnevas publicaciones cada mes. Muchas de
estas publicaciones incluyen articulos aparecidos a partir de enero de 1995, algunos
132 REcuPERACI~N DE LA INFORMAClhN EN INTERNET 0 Rk-MA

libros son anteriores y, continuamente, se incorporan nuevas fuentes, de informacid”


recientes. Cuando se elige un item de la Colecci6n especial a partlr de la lista de
resultados siempre se muestra, de forma gratuita, un resumen del articulo para que el
usuario pueda determinar si ese articulo es el que se est& buscando. Si &te decide
encargarlo, se inicia una transaccidn con tarjeta de crkdito. La mayor park de 10s
documentos de la Colecci6n especial cuestan entre uno y cuatro d6lares por articulo,
aunque algunos pueden costar m&s. Una vez adquiridos, 10s documentos estar!m
instantaneamente disponibles en la pantalla.

ri 8, r d
-+j MC @ zma drinunn

Figura 6.18. Pantalla de btisqueda avanzada de Northern Ligth

Las Carpetas personalizadas de biisqueda se encuentran situadas a la izquierda, en


la pagina de resultados de Northern Light. Para ver 10s documentos incluidos en cada
carpeta de categorias se pulsa en el icono. Para volver a la lista principal de resultados
despuks de abrir una carpeta, se pulsa en la carpeta superior irquierda de la pantalla. El
icono de la carpeta se transformara y adquirirs el color arul con una flecha amarilla en
la parte izquierda. Cuando se hayan consultado m&s carpetas todas tendrin ese
aspecto. Para volver al nivel anterior de resultados,~c pulsa en la carpeta arul abierta y
directamente se pasa a la secci6n deseada. Cuando 10s resultados contengan una
combinaci6n de documentos provenientes de la Colecci6n especial y de la W3, se
mostraran en la lista de resultados ambos tipos de enlaces hacia esos recursos. Las
Carpetas no est&n configuradas previamente coma en otros directories de la W3. En
vez de eso, cada vez que se realira una btisqueda en Northern Light se crean una serie
de Carpetas personalizadas basadas en blisquedas individuales. Estas Carpetas pueden
ser de cuatro tipos:
Figura 6.19. PBgina de resultados de Northern Light

1. Tema, coma hipertensi6n, bksbol, camping, sistemas expertos, o reposteria.

2. Tipo, coma notas de prensa, recetas o reshmenes, entre otros.

3. PublicacMn, es deck, desde recursos comerciales, hasta paginas personales,


revistas, enciclopedias o bases de datos.

4. Lengua, pudiindose elegir entre ingk, alemin, franc& y espafiol.

Cuando se selecciona una de estas Carpetas se crea un nuevo conjunto de


documentos para el siguiente nivel inferior. BasBndose en el nlimero de documentos
de cada Carpeta y en so relevancia a la pregunta, Northern Light determina que
Carpetas ser&n, probablemente, las m&s titiles en cada paso de1 proceso de bfisqueda.

Cuando se plantea una consulta, en la opci6n de bhsqueda simple de Northern


Ligth, ksta se envia a dos bases de datos diferentes y complementarias: la base de
datos general de recursos compilados por el robot, y la base de datos de lo que este
servicio denomina so Koleccibnespecial>). Este buscador localiza la informacibn y
agrupa dinamicamente 10s resultados de su bkqueda en Carpetas. Si el usuario no
encuentra inmediatamente lo que necesita en la lista de resultados, debe acceder a la
Carpeta que, por su temzitica o caractetisticas, suponga m8s apropiada. Cuando &a se
abre se producen nueva listas de resultados conteniendo solamente documentos de la
btisqueda original incluidos en esa Carpeta especifica. Asi, con pocas pulsaciones de1
r&n, se puede limitar una lista de resultados de cientos de piginas a ~610 un grupo
constituido por aquellas referencias realmente m8s &tiles.
6.6.3. Comentarios sobre Northern Light

Realmente Northern Light supone, por su originalidad, un autintico hito en la


evoluci6n de 10s buscadores web. Frente la avalancha de inform&k basura con la
que se ve sorprendido el usuario cuando plantea algunas btisquedas en la W3, esta
herramienta permite limita! la consulta a~obrasde referencja especialiradas y centrarla
segtin diferentes criterios relatives al tema, tipo, publicaci6n 1 lengua de 10s
documentos, todos de enorme utilidad. Por esta raz6n, Northern Light puede presumir
de haber sido muy bien acogida por 10s usuarios de la red.

6.7. UTILIZACI6N DE LOS METABUSCADORES

Aunque cada metabuscador tiene sus particularidades y prestaciones especificas,


vamos a detallar c&no se planificaria una blisqueda mediante este tipo de herramientas
tomando coma ejemplo a Metacrawler. Supongamos que, en esta ocasik preten-
demos localizar informacid” sobre la <<anorexia nerviosax y queremos remitir nuestra
consulta a diferentes buscadores para recopilar datos de forma exhaustiva. Para no
tener que repetir la consulta de forma individual en diferentes buscadores, optamos por
utilizar un metabuscador, el cual nos pennitirihater la pregunta simultzkcamente en
varies de ellos. Las etapas de la btisqueda se desarrollan de la forma siguiente:

Figura 6.20. Pantalla principal de Metacrawler


0 RA~MA CAPiTULO 6: PRlNClPALES MOTORES DE B6SQUEDA EN INTERNET 135

1. En primer lugar, conectamos coo el metabuscador (wwwmetacrawler.


corn) para acceder a so pAgina principal u homepage.

2 . A continuac%n, planteamos la consulta en la ventana de btisqueda simple que


es la que aparece por defecto. Podemos limitarla o no a recursos espafioles, lo
que se indicara marcando el icono correspondiente, fkilmenteidentificable (on
globo terraqueo o una bandera espaiiola). La ecuaci6n de btisqueda para esta
pregunta podria ser: "anorexia nerviosa” Espmia”. Se marca el bot6n <<all>>
para que aparezcan todos 10s tkrminos de bfisqueda en el document0
recuperado. En este case, hemos decidido escribir la consulta en espaiiol,
ya que es la lengua en la que nos interesa leer la informacidn. <<Anorexia
nerviosax se pone entre comillas inglesas (““) para que aparezca corn0 una
frase de btisqueda (coma tkrminos adyacentes y en ese orden) en las
paginas web que el programa nos muestre. Es conveniente el use de la
mintiscula, puesto que asi se encontraran las piginas donde ese tkrmino
esti tanto en mintiscula corn0 en maytiscula.

3. Resultados: Si no se indica otra cosa, 10s resultados aparecen ordenados


segfin la relevancia de 10s documentos a la pregunta, pero, en la parte
superior dex-&ina de resultados, encontramos dos enlaces de gran
utilidad, a saber, &ervidor>> (site) y <sFuente>> (source), que permiten
aplicar otros criterios de ordenacik Si se pulsa el enlace <<Site>>, 10s
recursos recuperados se ordenaran en funci6n de1 irea geografica en la que
estkn ubicados 10s ordenadores que alojan esos recursos. Si se elige la
opci6n nSource>~, las paginas web fruto de esa consulta se ordenarhn segfin
el buscador que las haya localizado.

A‘an*m iaa w ,/a mmdm he


d 2
L. ,I ,2L A 2, CL pzz q 2 Immrn”
o,rr,on L’ ~.ne,*,0.;%2~.t 1;~/,~/lV,h,~_O//~l~~~~~,.~il~~DlllO,,d*,Dli,~lh~ilUL,~,l,l=OblmPOUI-0ii011-0*Di~,-~i .l,llh10,m.l=1.1.91-

U~*ou loo*hgla:
/ i11l1)io
al’tiela Y~waId

,
D,rIc*orvL,.*,w /
Ayd,o,nPIF,Ic /
NIIIU.“UO. , il”.1~.“I
paliF’. nsn
ai,e,a, Rr,ouan,sllr,~~ , , ,. ,Mrllru
:.,,.
,O”OilTtRlC,O,ICS L.~:*PFI,TOINO~YXII~~NIOI1Tl~ll~lnYralarlil,2sUI
Ir..YI”,,,.Id-.-L”i-iOlhhlm,~:~I L,lpl,a. ,A! <, ., ~->a ,
jinrriccwnt
/I Em : : c --INUN”,” NII(VIUW Mr I; m,n,my,,, mmre rl
61 W”.l,urrn, @r..,*,m..i

Figura 6.21. PBgina de resultados ordenados por relevancia


U.S. General Internet site* i ,‘
. /,,q ,>,r,a,n.>, ‘,i’l,“ll,,o,l.~i,,Lio~~il ~.l~l”J ilaii,,,
a L4s4t-md ,~~-~ ~~.,gzma*ln,ri- a.+

Figura 6.22. Pigina de resultados ordenados por tipo de servidor

De cada referencia resultante se ofrece el titulo, el resumen, su tamaiio en kilobytes,


su ubicaci6n en la red (URL), la puntuaci6n de relevancia (1.000 para el documento
m&s relevante y 1 para el menos) y el nombre de1 buscador que ha localizado ese
recurso, de entre todos 10s que utilice ese metabuscador.

Desde la pagina de resultados se pueden localizar otros recursos relacionados


(View Related). Al seleccionar la opci6n Directory Listing el programa plantea la
blisqueda propuesta anteriormente en el directorio que, en este case al igual que en
Hotbot y Lycos, tambikn es Open Directory. De esta forma escruta categon’as
tem&ticas que coincidan con 10s thminos de la consulta. Coma hemos planteado
nuestra bkquedaen espafiol, no obtenemos resultados directamente, ya que, tanto las
categorfas coma 10s recursos de1 directorio, est&n en lengua inglesa. Si nos interesa
buscar en el directorio podemos hacerlo desde la pagina principal de Metacrawler
pulsando el botdn <<Directory>> e introduciendo la siguiente ecuaci6n de btisqueda, en
inglks: “anorexia nervosa”.

Otra prestaci6n que permite locahzar recursos relacionados con 10s resultados
obtenidos es Newsgroups para grupos de discusidn afines a la consulta planteada. En
el case de que el tema lo requiera, hay otras dos posibilidades: Audio MI?3 Files, para
localizar ficheros de mtisica y sonido a partir de1 nombre de1 artista, de1 Blbum o titulo
de la canci6n y Auctions, que informa de subastas organizadas por 10s principales
servicios de este tipo en la red, hasta treinta, ejecutando las biisquedas simult&
neamente en todos ellos (Amazon.com, eBay, Yahoo!, entre otros).
El nso de la option de bnsqueda avanzada debe restringirse a consultas con
condiciones especfficas. Pongzlmonos en el case de que deseamos que nuestra consulta
se dirija iinicamente a 10s buscadores que nosotros seleccionemos, por ejemplo,
Altavista, Excite, Infoseek y Lycos, y no a todos (dote en total) con 10s que trabaja
Metacrawler. Por otro lado, puede que queramos que 10s recursos recuperados
provengan de determinada area geografica, digamos Europa, que el tiempo de
blisqueda no exceda de un determinado periodo de tiempo, por poner, diez segundos.
Por hltimo, restringiremos el volumen de resultados recuperados por cada buscador
consultado a diez, indicaremos que no nos muestren m&s de diez resultados por
pantalla y que ordene las referencias en funcion de sn relevancia a la pregunta.

Figura 6.23. Pantalla de btisqueda avanzada de Metacrawler

Hay prestaciones que estan dirigidas, principalmente, a usuarios con cierto nivel
de experiencia en el manejo de estas herramientas o bien que van a hater un use
continuado de ellas. Metacrawler cuenta con la posibilidad de registrar las preferencias
de biisqueda que 10s usuarios manifiesten, y utilirarlas cada vez que tengan necesi-
dad de plantear consultas. Con esta prestaci& podemos adoptar varias decisiones que
constitniran la configuration que el metabuscador utilizara por defecto, es decir,
siempre que no se indique lo contrario:

1. Seleccionar el formato de la pagina de acceso al metabuscador: bnsqueda


simple o normal; avanzada; o de bajo ancho de banda (Low bandwidth). esta
liltima para usuarios que usen navegadores m8s antiguos.
2. Seleccionar 10s buscadores a utilizar en las btisquedas (de entre 10s dote totales
de Metacrawler)

3. Recnperar documentos que incluyan cualquiera de las palabras de la ecuaci6n


de bbsqueda, o bien que recojan todas las palabras, o bien ~610 donde dicha
ecuaci6n aparezca coma una frase de bfisqueda (todos 10s t&minos y en ese
orden).

4. Filtrar 10s resultados basindose en sus donumos, reglones o paises especificos.

5. Seleccionar la cantidad m&xima de tiempo de espera para la obtenci6n de


resultados.

6. Elegir el ntimero de resultados a mostrar en cada pagina y el nfimero m&ximo de


resultados obtenidos de cada buscador consultado por Metacrawler.

7. Elegir el criteria de ordenaci6n de 10s resultados: relevancia, dominio (.com,


.edu. .gov) o buscador de1 qne proviene.

8. Elegir si se desea que, al acceder al metabuscador, se sittie automiticamente el


cursor en la caja de bkqueda.

9. Optar por guardar o no automBticamente 10s parametros de bhsqueda cada vez


que cambiemos una de las preferencias y se ejecute una bkqueda. Luego ~610
hay que pulsar el bot6n inferior para guardar esta configuration (Save these
settings).

6.8. PRINCIPALES METABUSCADORES

6.8.1. MetaCrawler

Metacrawler (http:Nwww.metacrawler.com), reconocido coma uno de 10s m&


destacados servicios metabuscadores de la W3 continlia adquiriendo popularidad.
Cuando se plantea una btisqueda, la envia a 10s principales buscadores, reline 10s
resultados, elimina duplicados, examina la relevancia de 10s documentos recuperados
y ofrece una lista exhaustiva de recursos ordenados por su relevancia. MetaCrawler
ofrece opciones de blisqueda avanzada y otras caracteristicas personalizables. Como
prestaci6n de valor aiiadido incluye un servicio de compra online (MetaCrawler
Marketplace), servicios de directories, nna versi6n redncida de usuario (MiniCrawler)
y una curiosa caracteristica que le permite ver otras preguntas que estan planteando
otros usuarios en ese moment0 (Metdpy).

Cnenta con dos formas de consulta: bhsqueda en la W3 y blisqueda mediante


directorio, en concrete Open Directory. A so vez, para buscar en la W3 se puede optar
por la btisqueda simple o la avanzada. En el primer case permite seleccionar entre
CAPiTULO h: PRINClPALES MOTORES DE BirSQUEDA EN INTERNET 139

recursos web, provenientes de 10s grupos de debate o Newgroups, ficheros de sonido


MP3 y hasta acceso a sub&as que se celebran en la red. Se puede indicar si las
palabras clave introducidas en la ventana de consulta han de aparecer todas, algunas, o
corn0 bhsqueda de frase, en el documento recuperado. Asimismo, se decide si se
quieren ver diez, veinte, o treinta referencias por pagina y diez, veinte o treinta
referencias de cada buscador. Tambiin se pueden usar 10s delimitadores + -, adem&
sugiere otras referencias que, aunque no coincidan exactamente con la pregunta
planteada y sea” colocadas m&s abajo en el ranking de resultados, si pueden ser de
utilidad.

6.8.2. Inference Find

Esta herramienta de btisqueda, InFind (http://www.inferencefind.com) no ~610


envia las consultas simultaneamente a seis bases de datos -Altavista, Excite,
Infoseek, Lycos, WebCrawler y Yahoo!- sino que integra 10s resultados, elimina
duplicados y organiza las referencias recuperadas en gmpos 16gicos. La versi6n
gratuita de Inference Find, disponible desde Internet, no puede personalirarse seglin
las preferencias de 10s usuarios, pero la versi6n comercial, disefiada para ser usada en
una intranet, puede modificarse para conectar con 10s buscadores que se le indique.

Figura 6.24. Pantalla principal de1 metabuscador Inference Find

Inference Find no process la ecuaci6n de btisqueda para adaptarla a la sintaxis de


cada motor. El metabuscador recupera el nlimero mBximo de resultados que cada
buscador le permite. Sin embargo, una btisqueda mediante una palabra corntin permite
comprobar que el nfimero de items recuperados es bajo en comparaci6n con el que
ofrecen cada uno de 10s motores de btisqueda consultados de forma individual.
AdemBs, Inference Find no indica que resultados provienen de cada buscador. A pesar
de sus limitaciones, este megabuscador puede ser un efectivo y ripido instrumento de
localizaci6n de pgginas web para bfisquedas de las que se esperan menos de cien
resultados.

6.8.3. Dogpile

Desde so pantalla principal, Dogpile (http://www.dogpile.com) permite plantear


btisquedas en diversas ireas de inter&: metabhsquedas en la W3; cat&logo de recursos
web; grupos Usenet; archives FTP; blisqueda de noticias de Bmbito mundial
constantemente actualizadas (Newscrawler); cotiraciones de balsa, el tiempo,
blisqueda de empresas, negocios y productos ( Yellow Pages); bhsquedas de personas
(-white Pages); rnapas, entr-C “C”S.

Figura 6.25. Pantalla principal de1 metabuscador Dogpile

Para las metabtisquedas en la W3, Dogpile dirige las consultas a LookSmart,


GoTo.com, Dogpile Open Directory, Direct Hit, Aboutxom, Lycos, Infoseek,
RealNames, Yahoo!, Lycos y Altavista. Este metabuscador gestiona correctamente las
bfisquedas booleanas y de frase. A diferencia de otros buscadores en par&lo, Dogpile
no envia la ecuaci6n de blisqueda tal y coma la ha planteado el usuario sino que la
adapta (mostrando en pantalla c&no) a la sintaxis que utiliza cada motor. Sus pantallas
de ayuda detallan el proceso de <<traducciirn>> seguido. Los usuarios pueden war el
operador near y Dogpile lo sustituir& por and en aquellos motores que no soporten
near. La blisqueda de frases se indica mediante comillas (” “) y Dogpile las elimina en
aquellos motores que no soportan so “so. Esto puede ser de gran ayuda para 10s
usuarios que decidan realizar una b6squeda directa e individualmente en uno de 10s
buscadores que consulta Dogpile. Tambit% permite al usuario elegir exactamente qu&
bases de datos desea consultar (Al&vista, Infoseek, Lycos), asi coma guardar la
configuraci6n que podr& utilizarse para nuevas bhsquedas en las bases de datos
seleccionadas.

Como otros buscadores mfiltiples, Dogpile limita 10s resultados a 10s dier primeros
registros recuperados en cada base de datos. Esta tt5cnica funciona mejor para palabras
o frases raras o linicas. Al comienzo de la lista de resultados, informa de1 ntimero total
de items recuperados. En primer lugar se muestran 10s resultados provenientes de las
tres primeras bases de datos que respondan. Si se quieren m&s items hay que pedir 10s
resultados de las tres siguientes, por lo que la revisi6n exhaustiva de las referencias
recuperadas puede convertirse en un proceso tedioso.

El cz&logo de recursos web tiene 10s siguientes encabezamlentos principales: Arte,


Informitica e Internet, Administraci6n y Gob&no, Noticias y Medios de Comuni-
caci6n, Ciencia, Entretenimiento, Salud, Aficiones, Sociedad y Cultura. Las btisque-
das pueden centrarse en una determinada zona geografica y ofrece mejores resultados
cuando las bhsquedas se refieren a empresas y organizaciones que cuando se consulta
para encontrar informaci6n general.

La capacidad de Dogpile de adaptarse a las preferencias de 10s usuarios y de


informar con detalle de c6mo estructura 10s enunciados de bcsqueda hacen de &te un
megabuscador especialmente litil para utraduc& una ecuaci6n que coincida con 10s
requerimientos de motores de btisqueda especificos. Mientras que el limite de diez
ftemes para la presentacibn y la falta de una opci6n de ordenaci6n hacen diffcil la
revisi6n de 10s resultados, el enlace que ofrece desde el conjtmto de resultados hacia
las bases de datos individuales, significa que Dogpile puede usarse para realizer
b6squedas m& exhaustivas.
CAPiTULO 7

LOS AGENTES INTELIGENTES

Las tareas de recuperaci6n de informaci6n y de acceso al documento son m8s


complejas y necesitan m8s tiempo y esfuerro de 10s que normalmente est& acostum-
brado a emplear el usuario final. Con la creciente proliferaci6n de m&ores de
bcsqueda, bien scan gen&icos, bien Sean especializados, tampoco se obtienen 10s
resultados que serian deseables, ya que hay que valorar el tiempo y esfuerzo que
supone la consulta exhaustiva de todos ellos si se desean agotar todas las posibili-
dades. Tambit% es cierto que el comportamiento general de la mayoria de usuarios de
Internet y de la World Wide Web es limitarse a la consulta de 10s que considera m6s
importantes, o de 10s que le han dado respuestas m& acertadas en anteriores
ocasiones.

Consecuentemente, era cuesti6n de tiempo (mk bien breve) la aparici6n de


aplicaciones informAticas capaces de consultar simuMneamente varies motores de
btisqueda, comparar 10s resultados de 10s mismos, y ofrecer un resume* o listado al
usuario. Estas tareas las realizan de forma transparente, es deck, que el usuario les
puede encargar una tarea, y dedicarse a otras cuestiones, mientras que esta aplicaci6n
se encarga de todo el trabajo. Esto es posible gracias a que estas aplicaciones
especializadas aplican 10s principios generales de 10s llamados agentes de software, y
consecuentemente adoptan la denominaci6n de agentes de bkquedapara Internet, m&s
conocidos en el gmbito anglosajdn coma senrchbots (Hermans, 1995). En las
siguientes piginas delinearemos quk es un agente de software, cuBles son sus
caracterkticas, y c6mo se han desarrollado 10s agentes de blisqueda para Internet, asi
coma sus aplicaciones, prestaciones y futures desarrollos.
7.1. LA IDEA DEL AGENTE DE SOFTWARE
En el tratamiento automatizado de 10s datos, de1 que se ocupa la informitica
(Computer Science en el Bmbito anglosajbn), la realizaci6n de tareas repetltlvas y que
necesitan gran cantidad de potencia de proceso por park de 10s ordenadores, casi sin
necesidad de intervenci6n por park de1 usuario, ocupa gran parte de1 tiempo total de
proceso. Consecuentemente, se puede imaginar que la creaci6n de herramientas
informiticas que scan capaces de llevar a cabo estas tareas, sin interferir en otras nxk
prioritarias, y liberando tiempo y personal para otros menesteres, es una de las facetas
de mayor inter& para el desarrollo de nuevos programas. La idea basica es que estos
programas lleven a cabo tareas de forma autorxitica, por delegaci6n de1 usuario,
cuando sea necesario, sin la intervenci6n directa de &e.

Los programas capaces de ejecutar estos trabajos reciben el nombre genkrico de


nagentes de software,,, y son una de las Breas de mayor empuje e investigaci6n en la
Infornxitica en 10s liltimos afios, hasta llegar a considerarse coma las Killer Apps de
comienros del siglo XXI. Sin embargo, ese mismo empuje y desarrollo constante y
acelerado ha provocado que no exista un consenso generalizado sobre lo que es
y c6mo puede definirse un agente de software. Franklin y Graesser (1996), tras un
estudio sobre las diferentes nociones de agente publicadas, ha llegado a la conclusi6n
de que las diferentes definiciones se basan mfis en las propias caracteristicas de 10s
agentes que en otros criterios. Este autor propone coma definici6n que un agente
auttrnomo es on sistema situado dentro y como parte de un entorno, que siente y nota
ese entorno y actlia en 61, en el tiempo, para cumplir su propia agenda, siendo capaz de
apreciar 10s resultados obtenidos y de volver a actuar tomBndolos en considerac5n.x

El analisis de la definici6n genhica ofrecida nos permite delinear cuestiones


basicas para la compresi6n de 10s que son capaces de hater, y c&no, 10s agentes de
software. En primer lugar, se trata de una aplicaci6n o programa informhtico, escrito
en un lenguaje de programackk, bien sea compilado o interpretado (par ejemplo,
existen agente escritos en Perl, en Python o en cualquier variante o desarrollo de C). A
este programa se le dota de una agenda o relaci6n de trabajos y tareas a llevar a cabo,
en el entorno informatico en el que se encuentre, establecidos por un usuario humane.
TambiQ se le informa de un conjunto de parzknetros o situaciones que debe com-
probar a intervalos de tiempo sefialados. En el case de que en una de esas compro-
baciones detecte que se produce o ha producido una variaci6n sobre las condiciones
iniciales, consulta sus instrucciones para determinar si debe ejecutar, o no, alguna
accidn, y en el case de que la valoraci6n sea afirmativa, revisa so lista de tareas para
buscar y llevar a cabo la m&s adecuada.

Por ejemplo, un virus que llevase a cabo alguna maldad en una fecha dada, es uno
de 10s ejemplos m& bkicos de agente. De la misma forma, 10s programas de
mantenimiento de sistemas o de estructuras de ficheros, que avisan de la necesidad de
ejecutar una accibn de reparaci6n u optimizacibn, corresponden a las versiones m&
basicas de agentes de software. Puede imaginarse que, coma en otras facetas de la
infornxitica, 10s productos comerciales m& comunes o extendidos, con la
denominaci6n de agente, no ofrecen todas las prestaciones posibles de un programa de
este tipo, ya que 10s productos en investigaci6n y desarrollo son m;is potentes y
vers&iles de lo que pueda imaginar.

El usuario puede encontrar aplicaciones de estas caracteristicas con la denomi-


naci6n de robots de software. En principio, y dada la falta de definici6n existente
todavia en este campo, ambas expresiones se usan indistintamente. Recuerde que robot
Gene de1 tkrmino checo robota (trabajo), que fue introducido por el escritor Karel
Capek en su obra RUR (Rossurn’s Universal Robots) en 1921. !%ta es la raz6n por la
que una blisqueda de informaci6n sobre este tema le devolve,-& t&minos coma sojbots
(de sofivare robots). searchbots (de search robots). o simplemente hnt.r.

7.2. CARACTERiSTICAS DE UN AGENTE 0 ROBOT DE


SOFTWARE

La perspectiva te6rica ha establecido cu&s son las caracteristicas que debe


cumplir un agente o robot de software, para diferenciarlo de otras aplicaciones
(Bradshaw, 1997, Nwana, 1996). Antes de revisarlas, hay que recordar que la
plasmaci6n real de tales caracteristicas puede variar de forma notoria, considerando el
objetivo de1 agente, Las tareas a las que se dedica, su entorno de operacidn, etc.
1. Inteligencia: El agente debe poseer cierta capacidad de aprendizaje, es decir,
de apreciar el comportamiento de 10s usuarios ante las situaciones, y de tomar
nota de 10s mismos para aplicarlas cuando sea necesario.
2. PersonalizacSn y/o adaptaci6n al usuario: De la misma forma, debe copiar y
adoptar la forma de proceder del usuario, bien de forma directa, bien por
indicaci6n directa de1 propio usuario.
3. Flexibilidad: La flexibilidad supone la capacidad de ofrecer varias sugerencias
o posibilidades de actuaci6n ante una situaci6n dada.
4. OrientaciSn a objetivos: El agente o robot debe poseer una clam indicaci6n de
objet&s y orientar todas sus actuaciones hacia la consecuci6n de 10s
objetivos fijados.
5. Autonomia: Debe ser capar de valorar situaciones de1 entorno y de ejecutar
acciones sobre el mismo, segfin 10s criterios recibidos, sin intervenci6n de1
usuario. En otras palabras, toma decisiones.
6. Reactividad: Consecuencia de la anterior, supone que reacciona ante 10s
cambios producidos en su entorno, toma decisiones, y vuelve a valorar el
entomo para saber si es neceSario seguir tomando decisiones.
7. Eficacia: Es capaz de alcanzar sus objet&s (caracteristica evidente, por otra
parte).
8. Eficiencia: Y para alcanzar sus objetivos ejecutando las acciones necesarias,
d e b e o p t i m i z a r a l mkimo l a utiliraci6n d e 10s recursos informaticos
disponibles.

9. EspecialiracZn: Un agenre no es capaz de hater de todo en todas partes. La


complejidad de 10s sistemas hate obligatoria la especializaci6n en campos de
aplicaci6n.

10. Continuidad temporal: Un agente debe estar en funcionamiento constan-


temente, por lo que su actividad, en principio, no tiene limite temporal,
except0 en aquellas ocasiones en las que asi lo establerca el nsuario.

11. Sociabilidad: El use de un agente aislado en un sistema es una primera fase. El


verdadero potential de 10s agentes se descubre cuando diferentes agentes se
especializan en temas varies, en un mismo entomo, y son capaces de
comunicarse entre si, y de intercambiar informacidn con significado, necesaria
para el cumplimiento de sus objetivos. El poder de 10s agentes se basa en la
cooperaci6n con otros agentes, y para que esta cooperaci6n sea posible se
necesita habilidad de comunicaci6n social, si puede llamkselas asi.

Un agente o robot de software para el correo electr6nico podria tener coma


objetivo el filtrar y aligerar la gran cantidad de mensajes que recibimos en la
actualidad. Para 40, observaria el comportamiento de1 usuario, detectando quk
mensajes son leidos y guardados, son borrados tras ser leidos, o son borrados
directamente. En el case de detectar que un mensaje de 10s de borrado direct0 es leido
y guardado, deberia detectar la causa de esa modificaci6n en el comportamiento del
usuario. En aras de la eficiencia, deberia consultar el b&n a intervalos regulares, y
optimizar el contenido del fichero fkico en el que se almacenan 10s mensajes.
Tambi6n deberia ser capaz de estudiar la forma de ordenar 10s mensajes por parte del
usuario (fecha, tema, origen, etc.). Y coma resultado del estudio del entorno, a partir
de cierto moment0 seria el mismo agente el que ofreceria al usuario su correo
depurado, filtrado y ordenado, tomando para 410 coma pautas el comportamiento de1
usuario y 10s criterios que el mismo le pueda haber dado. Y en case de duda, podria
preguntar al usuario su opini6n, u ofrecerle altemativas (por ejemplo: &empre borras
estos mensajes, pero el tema es uno de 10s que te interesan, iqu6 quieres que haga?,,)
Aunque esto le pueda parecer un ideal en estos mementos, ya existen prototipos de
investigacibn con estas caracteristicas, y de este tipo, en estos mementos.

Un agente de software, coma puede apreciar, es, en primer lugar, un software que
asiste a 10s usuarios y act6a coma lo harian ellos, desarrollando tareas que kstos no
pueden llevar a cabo, por cualquier motive usuario (Jennings y Woolridge, 1998).
Consecuentemente, en 10s agent&s se aplica la idea de la delegaci6n de tareas, de tal
forma que en su actuaci6n siempre beneficien 10s intereses del usuario. En cualquier
case, debe tener en consideraci6n que no todos 10s agentes tienen una relaci6n, una
interfaz, directa con el usuario. La creciente complejidad de 10s sistemas infornxlticos,
que se oculta bajo interfaces grificas aparentemente sencillas y fkiles de usar, se
enfrenta a la necesidad cada vez mayor de simplificaci6n, por park de1 usuario. Estos
problemas se van a resolver cada vez en mayor medida mediante la integraci6n de
agentes, encargados de asesorar y guiar al usuario en tareas comunes. Algunos autores
han sefialado la diferencia existente entre userbots (agentes para usuarios) y taskbots
(agentes para la ejecuci6n independiente de tareas, sin intervenci6n directa de1
usuario).

Figura 7.1. ActuaciSn de un agente de software

7.3. AGENTES DE SOFTWARE EN INTERNET

Las caracteristicas delineadas en 10s pkafos anteriores widen&n que Internet es


un Bmbito privilegiado para la aplicaci6n de 10s agentes de software o softbots. Las
posibles funciones y tareas que pueden desarrollar son tan variadas coma se pueda
imaginar. Y, en realidad, muchas de las actividades informativas y de comunicaci6n
que se desarrollan en Internet tienen en su base, aunque el usuario no pueda apreciarlo
directamente, agentes o programas que se aproximan claramente a la idea de agente.
En 10s prkimos afios, quiz6 mews, la explosiSn de1 comercio electr6nico seri posible
gracias a la proliferaci6n de agentes personalizados, que evaluar& las preferencias de
10s usuarios, de su cesta de la compra digital, y le propondran productos, ofertas, o
ser&n capaces de bucear en el mercado inmobiliario para buscar una vivienda que se
aproxime a sus posibilidades y necesidades. Las herramientas de filtrado de noticias y
de correo electr6nico, asi coma la difusi6n personalirada de mensajes, coma ya hacen
gran cantidad de empresas y servicios de informaci6n, usan sistemas basados en
agentes.

Los sistemas de agentes m8s conocidos de Internet son, sin lugar a dudas, 10s web
robots, agentes que desarrollan todo tipo de tareas en la World Wide Web (JuMn y
Botti, 2000). Los m8s populares y Stiles, al menos en lo que respecta al usuario
corntin, son 10s agentes de blisqueda de informaci6n, o senrchbots. Los motores de
bhsqueda alimentan sus bases de datos mediante la utilizaci6n de robots o agentes
bkicos, 10s llamados spiders, wanderers o worms, a 10s que delegan las tareas de
localizaci6n, acceso y copia de documentos, coma se ha explicado en capitulos
anteriores. Junta a kstos, cada vez en mayor medida aumenta la utilizaci6n de 10s
agentes personales para recuperaci6n de informaci6n, que a&an coma intermediario
en&e el usuario y 10s motores de btisqueda, tanto si &tos son de tipo general, coma
especializados. Todo ello sin olvidar que 10s sistemas de tratamiento de informaci6n y
documentaci6n electr6nica para las intranets de las organizaciones ofrecen agentes
construidos y especializados en la recuperaci6n y la difusi6n selectiva de 10s
contenidos informativos de la misma.

7.4. LOS SEARCHBOTS, AGENTES DE RECUPERACdN DE


INFORMACI6N EN INTERNET

El tratamiento, de mhltiples formas, de gran cantidad de informaci@ es una de las


aplicaciones para las cuales 10s agent.% parecen especialmente preparados. Los
productos de dafa mining, o mineria de datos, una tknica cada vez en m8s auge en
grandes empresas y corporaciones, incorporan agentes para el tratamiento masivo de
informacibn. De la misma manera, el procesamiento de la gran mass de informaci6n
que se encuentra en Internet va a necesitar, cada vez en mayor medida, de la
aplicaci6n de agentes especializados, tanto si se busca informaci6n general, coma si el
usuario necesita una informaci6n especifica y puntual (Hipola y Vargas, 1999). Como
se ha sekladoen pkrafos anteriores, 10s agentes m8s conocidos en Internet son 10s
relacionados con las tareas de localiz&An, acceso y procesamiento de informaci@
textual, que han recibido el nombre gen6ico de searchbofs, palabra formada por la
uni6n de search robots (robots de blisqueda). Sin embargo, este Grmino sirve de
paraguas para agentes que pueden desarrollar diferentes tareas, e incluso diferentes
enfoques para las mismas tareas. No todos 10s llamados searchbots ofrecen las mismas
prestaciones, ni las mismas caracteristicas, ni la misma forma de use.

Una de las primeras definiciones de estos robots de la web se encuentra en un


trabajo de Martin Koster, uno de 10s grandes especialistas sobre motores de btisqueda
en Internet. Pam Koster, (1995) ((Un robot web es un programa que atraviesa la
estructura h i p e r t e x t u a l d e l a w e b para recuperar un documento, y recuperar
recursivamente todos 10s documentos enlazados con el mismou. M&s abierta es la
propuesta de Eichmann, para el cual <WI web spider es un programa que explora
aut6nomamente la web y ejecuta alguna acci6n sobre 10s artefactos que encuentran. Si
el lector recurre a la ckica referencia del whatis.com, &a le dir& que cc... en Internet,
un agente inteligente es un programa que busca informacidn o desarrolla alglin otro
servicio sin la presencia inmediata de1 usuario y a intervalos temporales predefinidos.
En general se le llama Softbof o Bot (abreviaturas de robot de software),,.
Figura 7.2. Un agente de exploraci6n recursiva en Internet

Los componentes presentes en las definiciones ofrecidas facilitan delinear las


caractetisticas y prestaciones que debe ofrecer un searchbot. En primer luger, el
usuario le informa de cu&les son sus necesidades de informaci6n, y delega en
el searchhot la ejecuci6n de las tareas necesarias para solucionarlas. Como la txea
principal es la obtenci6n de documentos que satisfagan la necesidad planteada, el
searchbor inicia una serie de tareas simuMneas, explorando documentos de la web, a
10s que puede llegar de diferentes formas. La forma m8s corntin, por el momenta, es la
consulta de mfiltiples motores de btisqueda. Todo ello en un Segundo piano, mientras
el usuario se dedica a navegar y a consultar otras fuentes de informaci6n. El desarrollo
acelerado de estas herramientas ya permite establecer algunas ccgeneraciones))
(Aguillo, 1999).

7.5. FUNCIONES TtiCNICAS DE UN SEARCHBOT

Las funciones tknicas que ofrece la actual generaci6n de searchbot es& muy
relacionadas con so funcionamiento directo. Es de esperar que 10s futures desarrollos,
una vez optimizadas las prestaciones bkicas, incidan m& profundamente en el apoyo
a las actividades de1 usuario. Las principales funciones disponibles en 10s searchbots
son:

1. Consulta aut6noma a fuentes de informaci6n: El usuario establece qu6 fuentes


de informaci6n, principalmente motores de btisqueda, van a ser consultadas para
solucionar la cuesti6n planteada. La cantidad de motores puede ser mayor o
menor, dependiendo de1 programa.

2. Consulta simulkinea: Para optimizar la conexMn y el tiempo disponible, 10s


searchbots no lanzan las conexiones secuencialmente, sino que lo hacen de
forma simukinea, e informan de1 es&do de la consulta y de las respuestas
recibidas.
3. Filtrado de respuestas: Las respuestas recibidas pueden contener duplicados,
referencias a documentos que ya no existen, etc. Consecuentemente, tras la
recepci6n de las respuestas es necesario someterlas a un filtrado que elimine
referencias duplicadas, inexistentes, o subsecciones de documentos principales,
por ejemplo.

4. Criterios de ordenaclon y ponderaci6n de respuestas: No todas las respuestas


ofrecen el mismo nivel de pertinencia a la cuesti6n planteada. Los searchbots
incorporan algoritmos capaces de analizar el contenido de1 documento, y
dotarlo con una escala de valoraci6n de sus contenidos, ordenando el conjunto
resultante segtin la misma.

5. Obtenci6n del documento original o primario: Las prestaciones anterior y


siguiente se apoyan en la capacidad de localizar el documento, y obtener una
copia de1 mismo que es recibida y almacenada en el ordenador de1 usuario. Esta
caracteristica le permitiri, adem& desarrollar una navegaciCIn fuera de linea
(ofl&-line), con el ahorro de tiempo y dinero que ello puede suponer.

6. Creaci6n de recursos de informaci6n locales: Con las respuestas recibidas, 10s


.searchbots ofrecen la posibilidad de crear, si interesa al usuario, recursos de
informaci6n en su propio ordenador, que pueden adoptar la forma de bases
de datos textuales, directories e indices en forma de psginas web, etc.

7. DefiniciSn de perfiles de usuario: Como se ha explicado en capitulos anteriores,


las necesidades de informaci6n de on usuario se plasman en un conjunto de
expresiones o ecuaciones. Un perfil de usuario supone la creaciSn de un archive
permanente en el que se puedan almacenar esas ecuaciones y ejecutarse cuando
sea precise.

8. TemporalizacSn de actividades: El .rearchbot debe ofrecer la posibilidad de


establecer la ejecuci6n de perfiles de usuario a intervalos temporales, regulares
o no, seglin 10s intereses o la necesidad de informaci6n en cada momenta.

9. Tareas de vigilancia y mantenimiento: En relaci6n con la anterior se encuentran


las funciones de vigilancia y mantenimiento, Estas tareas suponen la revisi6n de
r e s u l t a d o s d e bfisquedas ya realizadas, para mantener actualizadas las
referencias obtenidas en consultas anteriores. ya que la variabilidad espacial y
temporal de 10s recursos de informaci6n en Internet no hacen posible la
utilizaci6n de resultados de tipo est8tico.
Figura 7.3. Aspecto de nn searchbot: Copernic 2000

7.6. EL FUNCIONAMIENTO DE UN SEARCHBOT

La generaci6n actual de searchbots ofrece un funcionamiento sencillo, sin grandes


problemas, siempre y cuando el usuario comprenda las bases te6ricas sobre las que se
sustenta su actuaci6n. A l tratarse d e primeras generaciones d e este t i p o d e
aplicaciones, el funcionamiento general esti muy ligado a las prestaciones b&icas
ofrecidas (Hipola, Vargas y Monks, 1999). Si es necesario indicar que no todos 10s
programas identificados coma searchbots ofrecen las mismas prestaciones ni son
capaces de hater lo mismo. Las funciones que ofrecen y su complejidad pueden variar
notablemente de unos a otros. En t&minos generales, podriamos distinguir las
siguientes etapas:

1. Formnlaci6n de la expresi6n de bkqueda: Una vez activado el searchbot, &te


ofrece una interfaz en la qne el usuario puede introducir una expresi6n textual, o
ecuacibn, que refleja so necesidad de informaci6n. Sobre la formnlaci6n de las
mismas ya se ha tratado en capitulos anteriores. En principio, el propio
searchbot se encarga de adecnar la expresi6n a cada uno de 10s motores o
recursos de informaciSn qne vayan a ser objeto de consulta.

2. Definici6n de1 dominio o dominios de blisqueda: Una vez escrita la expresi6n,


el usuario pnede definir 10s recursos de informaci6n contra 10s cuales se enviak
&a. Los searchbots m8s completes permiten definir dominios particulares,
crear listas personales, etc.

3. Definici6n de criterios de selecci6n y filtrado de respuestas: Se pueden


establecer criterios de filtrado que se apliquen sobre las respuestas que se
reciban, o sobre el propio proceso de consulta. Por ejemplo, fijar un nlimero
mkimo de respuestas por motor consultado, un tiempo de espera, la
eliminaci6n de respuestas duplicadas, etc. Tambit% podria caber en esta fase
la comprobaci6n de la existencia real de la respuesta, asi coma la obtenci6n de
una copia de1 documento original.

4. Ejecuci6n de la blisqueda: Una vez definidos todos 10s par&metros, el usuario


pone en marcha la ejecuci6n de la btisqueda. Los searchbots actuales lanzan
inmediatamente un proceso de con&ones simulkineas a 10s motores, de
recepci6n de respuestas y de primer filtrado de la misma, para pasar
posteriormente a comprobar su presencia real en la web, asi coma a obtener una
copia de1 original, si el usuario lo ha establecido asi. Debe tener en cuenta que
este proceso puede ser large y tedioso, dependiendo de1 estado de la red y de la
capacidad de su miquina. En cualquier case, puede minimizar el searchbot, y
dedicarse a otras tareas.

5. Tratamiento de 10s documentos resultantes: Los searchbots, una vez obtenidas y


comprobadas to&as las respuestas definidas, proceden a analizar las mismas,
para ordenarlas segtin una escala de pertinencia a la consulta formulada.
Algunos de estos programas son capaces de crear reshmenes e indices de
contenidos, una prestaci6n de sumo inter& para el usuario. Por desgracia, 10s
fabricantes casi nunca informan de cuziles son 10s algoritmos y principios que
aplican. En cualquier case, el usuario puede variar esa ordenaci6n, seglin le
interese, por fechas, dominios, contenido u otros condicionantes.

6. Presentaci6n de 10s documentos: Las recopilaciones obtenidas coma respuesta


son ofrecidas en form&o de paginas HTML, o bien en formatos de base de
dates, o incluso formatos de fichero propios de la aplicaci6n. Los m8s
interesantes para el usuario son 10s dos primeros, ya que le van a ofrecer mayor
potential para su utilizaci6n posterior. Lo m& comhn es que adopten la forma
de indice de entradas, ordenado seglin 10s criterios definidos con anterioridad.

Como el lector puede comprobar, la ejecuci6n de una bhsqueda por un senrchbot


es, por sus caracteristicas y prestaciones, m& compleja y larga que la consulta a un
motor de btisqueda. Cada vez en mayor medida, estos programas procesarBn 10s
documentos obtenidos, mediante indizaci6n y resume% generando herramientas de
ayuda a la organizaci6n y a la consulta de las respuestas.
Motor de btisqueda
Searchbot

Figura 1.4. Funcionarmenro de un searchbot

7.7. LOS LENGUAJES DE LOS AGENTES. KIF Y KQML

En el esbozo realizado sobre 10s agentes de informaci6n se ha incluido la capacidad


de &tos para comunicarse entre si. Como puede suponer, deben existir unas normas de
comunicaci6n comunes, a nivel de signos y de estructura de1 contenido, que hagan
posible el intercambio de informaci6n entre 10s agentes. Ya en 1994, Genesereth y
Ketchpel plantearon la necesidad de una Agent-bmed S$tware Engineen’ng, dentro de
la cual desempeiiaba un papel fundamental lo que estos autores llamaron Agent
Communication Language (ACL). El proyecto de investigaci6n se desarrollaba en el
marco de DARPA (Defense Advanced Research Project Agency), dentro de otro
proyecto a gran escala conocido coma ARPA Knowledge Sharing Effort. El lenguaje
de comunicaci6n para agentes propuesto incluia tres elementos:

I. El vocabulario a utilizar por 10s agentes, organizado en forma de diccionanos.

2. El lenguaje KIF (Knowledge Interchange Format, Format0 de Intercambio de


Conocimiento).

3. El lenguaje KQML (Knowledge Quer) and Management Language, Lenguaje


de Pregunta y Gesti6n de Conocimiento).

Segiin este esquema, cuando un agente se comunica con otro, en primer lugar
acude a su diccionario para seleccionar 10s tkrminos a usar, que deben encontrarse y
estar permitidos en el mismo. Posteriormente, utiliza KIF para formular la expresi6n
de conocimiento e informaci6n a enviar al otro agente. KIF es un lenguaje de c&xdo
de predicados de primer orden que ofrece la semAntica a utilizar, la representaci6n de
reglas de razonamiento y las funciones de definici6n de objetos. La expresi6n creada
con KIF es <<envueltaa> en KQML, que aporta el formato de1 mensaje y toda la
informacibn necesaria de1 contexto en el que va a tener lugar la comunicaci6n. Un
mensaje en ACL seria una expresi6n en KQML, en la cud 10s argumentos s&an
tkminos o frases en KIF, formadas usando 10s tkminos incluidos en el vocabulario.

Existen otros lenguajes para comunicaci6n entre agentes, coma AgentTCL,


T&Script o AOP. Tambikn es necesario mencionar aqui el auge que est&n teniendo
las ontologias, coma herramientas de organizaci6n y almacenamiento de conocimiento
a utilizar por 10s agentes, y que comienzan a ser aplicadas, a nivel experimental, en
campos muy especialirados.

7.8. PROBLEMAS PLANTEADOS POR LOS AGENTES

El potential de 10s agentes para descubrir y procesar informacibn en cualquier


campo y de forma casi transparente ha generado nuevos problemas. En primer lugar,
la generaci6n actual de agentes consume una gran cantidad de recursos, tanto a nivel
de miquina del usuario, coma a nivel de utiliraci6n de prestaciones de la red
(especialmente en ntimero de con&ones y ancho de banda). En Segundo lugar, poseen
habilidades que pueden interferir en aspectos individuales y privados de 10s
individuos.

En lo que concierne a la primera cuestien, lo cierto es que las arquitecturas


informiticas actuales poco pueden aportar. S610 el esfuerzo en la eficiencia del disefio
de1 agente, y en la aplicacidn de1 principio de moderack% en su demanda de recursos,
parecen ser medidas litiles. La segunda cuestiSn planteada es m8s delicada, ya que
entra en cuestiones legales e individuales. El deseo de limitar las posibilidades de
obtencihn de informaci6n por park de 10s agentes ya estaba presente en el Robot
Exclusion Sfandard, propuesto por D. Eichmann, y que permitia fijar limit.% a la
actividad de 10s robots dentro de un servidor web. Mk avanzada es la propuesta de
Etzioni y Weld, 10s wales, en claro paralelismo con Asimov, han propuesto unas
&yes de la softbbtica>>. Estos principios proponen la identificacibn de 10s agentes y
su respeto a limitaciones impuestas, al tiempo que dotan al usuario de capacidad para
proteger su identidad y sus actividades, asi coma de mecanismos de vigilancia para
evitar consecuencias inesperadas. El propio desarrollo de la tecnologia de agentes
traera coma consecuencia la aparici6n de normas legales y kticas que velen por 10s
derechos de 10s usuarios.
CAPiTULO 8

AGENTES DE BirSQUEDA PARA INTERNET

8.1. QUERYN METASEARCH 2.2.

QueryN MetaSearch es un sencillo robot de blisqueda que le permit% introduck


ripidamente en el Bmbito de 10s agentes de recuperaci6n de informaci6n para Internet.
Es un producto de FreeFlow Software, y puede obtener una copia del mismo, asi coma
material de ayuda, en http://www.queryn.com. La instalaci6n es sumamente simple.
Obtenga una copia de la aplicaci6n, QueryNSetupxxe, y pulse dos veces con el rat6n.
Se lanzar~ un proceso de instalaci6n estindar y sencillo, que le dejar6 preparado para
trabajar rhpidamente. Ahora, desde Programas, abra el men6 QueryN MetaSearch y
ejecute el programa. Tras el aviso de registro y copyright, se muestra la ventana de
trabajo de QueryN.

8.1.1. La interfaz de usuario de QueryN MetaSearch

La interfaz de usuario es muy sencilla. En primer lugar, una ban-a de menlis, desde
la cual controlaremos determinados par&metros del sistema, asi coma las opciones
para guardar bhsquedas en nuestro ordenador. Debajo del men& se divide en dos
grandes espacios: El primer0 de ellos, bajo el titulo de Search Engines Selected, nos
informari de 10s motores usados en las blisquedas, y del desarrollo de la bhsqueda en
cada uno de ellos. En el lateral derecho aparece el b&n migico, Search, que
usaremos para definir las bdsquedas. El espacio inferior, Sites Found, ms mostrari
10s resultados de lx blisquedas, indicando el titulo de1 documento, el URL en el que
se encuentra, y las verificaciones y errores recibidos durante el proceso.
Figura 8.1. La interfaz de usuario de QueryN MetaSearch

8.1.2. Prestaciones de QueryN MetaSearch

QueryN es un searchbot muy simple. Ofrece al usuario una lista predefinida de


motores de bfisqueda a consultar (AltaVista. AOL NetFind, Excite, Hotbot, InfoSeek,
Lycos, Magellan, W&Crawler y Yahoo!), asi coma una ventana para formular la
expresi6n de blisqueda. Una vez hecho esto, lanza un conjunto de conexiones simul-
t&us a 10s diferentes motores, espera las respuestas, elimina 10s duplicados, y
procede a desarrollar un proceso de verificaciSn de la existencia de 10s documentos
obtenidos coma respuesta. La lista obtenida se puede almacenar en el ordenador de1
usuario, pero recuerde que es ~610 una lista de resultados, es de&, que no obtiene
copia de 10s documentos originales. En cualquier case, la pulsaci6n de cualquiera de
las respuestas lanzar8 el navegador instalado en so ordenador, y &te procedera a
cargar la pagina en cuesti6n. AdemBs, la lista de motores a consultar puede modi-
ficarse a su gusto, lo cual quiere decir que podr& afiadir nuevos motores, restringir el
use de otros en determinadas btisquedas. etc.

8.1.3. Desarrollo de ma htisqueda con QueryN MetaSearch

El proceso de btisqueda con la aplicaci6n es sencillo. Pulse el bot6n Search. Se


abre un cuadro de diilogo, Enter Query, en el cual podremos formular la expresiSn
de btisqueda. Observe que las posibilidades son limitadas: operadores AND/OR, y
frase completa. En campo Terms escriba 10s t&minos que le interesen. Por ejemplo,
“Charcharodon Charcharias” (el gran tibur6n blanco). Coma es una expresi6n muy
especifica, puede war tanto la opci6n And coma Phrase. No escriba 10s operados. ya
que QueryN lo hari por usted. Pulse Ok.
I II I

Figura 8.2. DiQlogo Enter Query

Inmediatamente, QueryN carga l a lista d e motores a consultar, y lanza las


conexiones a 10s mismos. Cada uno de ellos tiene un indicador delante. Si es amarillo,
significa que la conexi6n se encuentra activa. Si es Verde. que ha finalizado con &to.
Por liltimo, el rojo es un indicador de error. Al lado de cada nombre aparece un
ntimero, que le indica el nlimero de respuestas obtenidas en cada motor. Observe que a
la derecha del cuadro aparcce una leyenda y una barra de proceso que le informa del
desarrollo general de la consulta

Figura 8.3. Desarrollo del proceso de blisqueda y verificaci6n


Par ejemplo, si pulsa una vez en InfoSeek, y desput% en el bot6n Properties, se
abrir6 un nuevo diilogo, en el que se muestra cdmo esta configurada la consulta para
InfoSeek. Observe que tiene un URL principal, y luego un secundario. Puede definir
10s simbolos de 10s operadores AND/NOT y de frase, fijar contadores... Observe,
adem&, la casilla situada en la esquina inferior izquierda, Search Engine Active.
Dependiendo de que seleccione o no esta casilla, este motor se usar6 o no durante la
blisqueda. Tambi& es interesante al diBlogo de Exclusions. Como 10s motores ahora
ofrecen muchos servicios, con Exclusions podemos establecer otros servicios, dentro
del mismo motor, que no deseamos que Sean consultados

Figura 8.5. DiBlogo Properties

Por tiltimo, 10s parBmetros recogidos en Limits establecen el nlimero maxima de


conexiones simultaneas (Maximun Connections), 10s tiempos m&ximos de espera
(Search Engine Timeout), el “firnero de respuestas por motor (Sites per engine), o
10s intentos de conexi6n antes de error (Connection Retries). De especial inter& son
las tres opciones de la parte inferior. Verify Sites obliga a verificar la existencia de1
documento (aunque podria hacerse a posteriores, pulsando el b&n Verify de la
ventana principal), Eliminate Duplicates elimina las respuestas repetidas, y Tally
Votes es una tecnica que usa QueryN para ponderar y valorar las respuestas m8s
adecuadas.

iY las respuestas para Charcharodon Charcharias? Podra observar que son de lo


m8s rare, y que ~610 tres o cuatro de las sesenta o setenta recibidas le s&n litiles. La
causa es que QueryN necesita que el usuario refine notoriamente las expresiones y 10s
motores a utilizar, asi coma manejar con soltura las exclusiones. Aunque otras
aplicaciones son m8s potentes y adecuadas, esta aplicaci6n puede darle buenos
IOil RECUPERAClON DE LA INPORMACI~N EN INTERNET 0 K&MA

resultados para una b6squeda ripida e introductoria, asi coma para introducirse en el
campo de 10s searchbots o robots de bfisqueda.

Figura 8.6. DiBlogo Limits

8.2. HURRICANE WEBSEARCH 1.30

Hurricane Web&arch es un searchbot muy bkico, ya que ~610 ejecuta la blisqueda


contra varies motors, y no in&ye prestaciones m8s avanzadas que pueden
encontrarse en otros, coma es la utilizaci6n directa de operadores o la eliminaci6n de
duplicados. En cambio, obtiene resultados ripidamente, lo que puede ser una ventaja
en determinados contextos. Es un desarrollo de Gate Comm Software, y puede
encontrarlo en http://www.gatecomm.com. El programa viene en un fichero
compactado con formato zip (webszip), luego es necesario descompactarlo antes de
la instalaci6n. El proceso de instalaci6n es sencillo: basta con lanzar el icono de1
programa, y se siguen 10s pasos ckicos de definicibn de directorio, etc.

8.2.1. La interfaz de usuario de Hurricane WebSearch

Hurricane Web&arch muestra una de las interfaces de usuario ITI& simple de


cuantas se han vista: Una ventana de diBlogo en la que pueden seleccionarse 10s
motores a usar para la blisqueda, y el campo necesario para formular la expresi6n o
ecuaci6n.
Figura 8.7. Interfaz de Hurricane Websearch

Los menlis de Hurricane Websearch ofrecen pocas funciones. File sSlo permne
establecer una conexi6n con la opci6n Connection Wizard (~610 interesante para
aquellos que no la tengan ya establecida), y salir de1 programa con Exit. El menii
Options permite una minima personalizaci6n, definiendo las preferencias de1 proxy (si
es necesario), en la opci6n Proxy Settings, de1 cliente web en Web Browser, y borrar
todo el hist6rico de blisquedas ya realizadas mediante Delete Search Results, opci6n
que serB explicada con detalle m&s adelante. El menfi Help ofrece ayuda sobre el
funcionamiento de Hurricane Websearch, y Register todo lo necesario para adquirir
una licencia.

Es necesario advertir que el usuario no debe esperar un cambio en la visualizaci6n


de1 programa cuando ejecute una blisqueda. Por lo tanto, la visualiraci6n de 10s
resultados se realizari de otra forma, mediante la presentaci6n de 10s resultados en una
pigina web local que serB mostrada por el navegador que haya definido. Observe
tambikn que no aparece en ninglin lado una opci6n para guardar el resultado de las
btisquedas. Este programa guarda todas las blisquedas y sus resultados de forma
automatica en un fichero de cach6 propio, al que se accede desde la misma ventana de
consulta, y que ~610 es borrado usando la opci6n Delete Search Results (tenga en
cuenta que no discrimina: si borra, 10s bon-a todos).

8.2.2. Una blisqueda con Hurricane WebSearch

Castiello de Jaca es un precioso pueblo situado en el valle de1 Aragbn, a pocos


kil6metros de Jaca. Vamos a desarrollar una bcsqueda sobre Castiello de Jaca. En
primer lugar vamos a marcar todos 10s motores que deseamos consultar. Para ello,
marcaremos la casilla de verificaci6n situada a la derecha de cada bot6n de motor.
Seguidamente, introduciremos la expresi6n en el campo Keywords. Este programa
admite 10s tres booleanos bssicos, OR separando 10s tkrninos con espacio o coma,
AND, mediante el signo +, y NOT, mediante el signo - Si quiere introducir una frase,
escribala entrecomillada. Despuks, establezca el nhmero de respuestas que quiere de
cada motor, en la casilla Links per. Deben ser 10, 50, 100, 150 o 2000. Defina el
tiempo de espera mkimo para recibir respuestas, en Wait for max. Por filtimo,
marque la opci6n Show results on a single page. Esto le permitira obtener una pagina
web de indice desde la que podri acceder a cada una de las paginas de respuesta
enviada por 10s diferentes motores. Por tiltimo, pulse el bot6n Search. La blisqueda
comienza.

Figura 8.8. En proceso de bfisqueda

Mientras se desarrolla &a, 10s colores de 10s indicadores situados a la derecha de


cada casilla de selecci6n de motor cambian de color, desde gris coma inactive, a rojo
intentando conectar, arul conectado, hasta terminar en naranja, lo que significa que la
bhsqueda en ese motor ha terminado. Mientras, la barra inferior de estado informa
sobre el desarrollo de1 proceso. Cuando &te ha terminado, automiticamente se carga
la pagina de resultados en la cliente web de su m8quina. Al haber seleccionado una
linica pigina de respuestas, se le muestra un listado de motores. Pulsando el enlace de
cada uno de ellos, podr6 ver la pagina de respuestas que ha enviado cada uno de 10s
motores. Como puede apreciar, no hay eliminaci6n de duplicados ni confirmaci6n de
la existencia real de la pagina web. Puede cerrar su cliente web y volver al programa.

Ahora podtia desarrollar una nueva blisqueda de informaci6n. Sin embargo, eso no
significa que desaparezcan 10s resultados de las anteriores. En cualquier moment0
puede pulsar sobre 10s botones correspondientes a 10s motores, situados en la parte
izquierda de la ventana de Hurricane Websearch. Se le abriri un menti emergente en el
cual podrzI ver las btisquedas desarrolladas, y pulsando sobre cualquiera de ellas tendri
acceso a 10s resultados parciales de la misma. Como agente personal, Hurricane
Websearch, en la versi6n analizada, resulta muy bisico, pero cuenta con la ventaja de
so rapidez, asi coma con el alto nlimero de respuestas vilidas que suele ofrecer. Si
necesita m8s prestaciones para sus tareas de recuperaci6n de informac%n, asi coma
control de duplicados u obtenci6n de copias de1 documento original, existen otras
herramientas que complementan las prestaciones de Hurricane Websearch.

1,~ -y- oorumenc Done ‘“< 3, 3 I

Figura 8.9. Presentaci6n de resultados

8.3. WEBFERRET 3.02

WebFerret es on seurchbot de1 mismo estilo que QueryN MetaSearch. Web Ferret
es un product0 de FerretSoft LLC, y puede obtener una copia del mismo, asi coma
,I documentaci6n adicional, en http://www.ferretsoft.com. Cabe sefialar que, al igual que
j otros productos, la versi6n freeware ofrece menos prestaciones que las registradas o
‘, , ‘Jas versiones tipo Pro o Professional. Tambikn es este case el proceso de instalacidn es
, simple, ya que basta con pulsar dos veces el icono webferret.exe, y se lanza el proceso,
‘/ sue ~610 requiere definir el directorio de instalacibn, asi coma las caracteristicas de1
6 proxy de so red (en el case de que tenga alguno, lo mejor es consultar al administrador).
J
I 8.3.1. La interfaz de usuario de WebFerret

-@ interfaz de usuario es simple: una ventana de trabajo, con una barra de mentis, y
un campo, bajo el epigrafe de Page Containing, en el que se pueden introducir las
expresiones de bhsqueda. Debajo de1 mismo, opciones para osar el operador AND (All
keywords) o el operador OR (Any keyword). En las liltimas versiones dispone
adem& de las posibilidades de buscar frases o expresiones exactas (Exact phrase), o
bien introducir expresiones complejas que osen operadores booleanos, incluyendo
AND, OR NOT, (Boolean expression), y la posibilidad de combinar &tos con frases.
Puede encontrar ejemplos de blisquedas en la ayuda, accesible en el men6 Help,
opci6n Help Topics, icono How To... A la derecha, botones para iniciar la consulta
(Find Now), para detener!a (Stop), o para iniciar una noeva bhsqueda (New Search).
Esta ventana se amplia cuando se inicia la bfisqueda y se comienzan a recibir 10s
resultados. coma se ver& m8s adelante.

Figura 8.10. Interfar de WebFerret

8.3.2. Prestaciolies de WebFerret

Las prestaciones de WebFerret son similares a las ofrecidas par QueryN


MetaSearch. El m&do de use y desarrollo de las blisqueda es muy similar. Sin
embargo, la versi6nfre_ekvareincorpora menos funcionalidaCl, aunque es m&x@ida.
‘; _~
Es en la .~ versi6n .Pro donde se aprecian numerosas yentajas, ya que incorpm-eL
operador AND NOT, mayor nlimero de motores de bfisqueda, blisqueda avanzada,,
i utilizaci6n de criterios de relevancia para ordenar 10s resultados y eliminaci6n de
resultados. En la ventana de consulta, observe que aparece una segunda lengiieta
(Advanced), cuya pulsaci6n trae a primer piano 10s d2dogos que definen kn quk parte
de la pagina web queremos localizar la expresi6n (Closeness of match), asi coma quk
acciones a realizer con 10s duplicados (Duplicate removal). Search the entire page
revisa todo el contenido de la pigina web; Only search the title and abstract busca
~610 en el titulo y el resumen de la pagina web hecho par 10s motores, Only search
the page title busca exclusivamente en el titulo, y Only search the page Url ~610 usa
el contenido de1 URL. Sobre 10s duplicados, podemos elegir None, que no 10s elimina;
Remove duplicate URLs, que elimina 10s documentos con el mismo URL; Remove
duplicate titles, elimina 10s que tienen el mismo titulo, y Remove duplicate host
elimina resultados varies dentro de1 mismo dominio.
I-
Figura 8.11, Definici6n de lugar de blisqueda y eliminac ,i6 in de duplicados

;’ ,8.3.3. El proceso de blisqueda en WebFerret


2 ,-
\ ii Continwunos con nuestra btisqueda de1 gran tibur6n blanco. En el campo Page
’ bmtaining i n t r o d u c i m o s Kharcharodon Charchariasx y s e l e c c i o n a m o s All
keywords, en Advanced seleccionamos Search the entire page y Remove duplicate
URLs, y pulsamos Find Now. RBpidamente, WebFerret lanza las blisquedas a varies
“\ ^ motores de forma simukka, y filtra autom&ticamente 10s resultados. La ventana de
trabajo se amplia en su parte inferior, mostrandonos un listado con 10s documentos
obtenidos coma respuesta. ObservarB que mientras se desarrolla el proceso, el icono
de la lupa sobre el mundo situado a la derecha se anima, hasta terminar. Tambikn
podrB apreciar c&no aparece un banner o etiqueta publicitaria animada, que puede
eliminar en la versihn Pro.

Figura 8.12. Resultados de la blisqueda en WebFerret


En primer lugar, observe que 10s resultados son mucho m& ajustados que con
QneryN. Por el contrario, la velocidad supone que no se ha realizado un proceso de
verificaci6n de la existencia de 10s documentos obtenidos. Ahora se pueden desarrollar
varias acciones. En primer lugar, guardar 10s resultados bbteni$x. Para ello, acuda al
men6 File, opci6n Save Search. Tenga en cuenta que en este case se guardan en un
form&o especial de WebFerret, no en HTML. Despuk se puede optar por diferentes
tipos de presentaci6n de 10s resultados. Para elio, acuda al menti View, y pruebe las
cuatro primeras opciones, aunque la 1~8s litil para analizar 10s resultados es Details.
Tambikn puede ordenador 10s resultados usando las opciones recogidaq en Arrange
Icons.

En el espacio destinado a mostrar el listado de documentos resultantes tambiin


puede desarrollar varias opciones. Si sit& el cursor sobre el titulo de un documento
cualquiera, v&i aparecer un menti emergente que le informarz? sobre el contenido de1
documento en cuesti6n. Y si pulsa dos veces sobre el mismo titulo de cualquiera de
ellos, inmediatamente se pondra en marcha el navegador de su sistema, para cargar la
pigina seleccionada. Por hltimo, observe que el campo destinado a las expresiones de
btisqueda ofreck un men6 desplegable, en el coal se recogen las btisquedas efectuadas
hasta el momenta.

Figura 8.13. Menti emergente sobre el contenido de1 documento

8.3.4. Opciones de configuracih de WebFerret

Las limitadas opciones de configuraci6n de esta aplicaci6n pueden modificarse


desde el menh View, opci6n Options. De esta forma se accede a un cuadro de dUogo,
en el que podr& modificar, principalmente, 10s m&ores de bfisqueda consultados (~610
puede activar o desactivar en Search Engines), la cliente web (Client) a’utilirar para
mostrar las piginas, el nxiximo de respuestas a tratar (Advanced), guardar el hist6rico
de blisqueda (History) o la configuraci6n de1 servidor proxy,‘en el case de que su red
lo necesite. Mas interesante es la posibilidad de definir filtros que se apliquen a las
bhsquedas, y que consisten en listados de thminos, 10s wales, de aparecer en el
documento, inmediatamente excluyen a t%te de 10s resultados. Pulse la etiqueta
Filters. WebFerret trae predefinidos dos filtros, para evitar palabras malsonantes y
cuestiones escabrosas. Si quiere afiadir un nuevo filtro, pulse bot6n derecho de1 r&n
sobre el Brea blanca, seleccione Add... e introduzca un nombre de filtro. Pulse bot6n
derecho del rat& sobre el nombre de1 filtro, y seleccione Edit... ahora podri afiadir
una lista de p&bras, o de URLs, a excluir. Marcando el cuadro de cada filtro podra
activarlos o desactivarlos para las bfisquedas.

Figura 8.14. Opciones de configuraci6n de WebFerret

WebFerret es otra herramienta bisica, muy interesante para iniciar una btisqueda de
informaci6n en Internet. Sin embargo, la versi6n freewure ado&e de algunas
limitaciones, que se superan con la versi6n Pro. Ahora es el moment0 de que compare
10s resultados de la blisqueda con 10s obtenidos por QueryN, y recuerde todo lo dicho
hasta el moment0 sobre la estructura y funcionamiento de 10s motores de blisqueda en
Internet.

8.4. BULLSEYE 2.5

BullsEye es un producto de Intelliseek Inc., una conocida empress norteamericana


dedicada a soluciones para la recuperaci6n y la gesti6n de la informaci6n. Es
interesante destacar que BullsEye incorpora la tecnologia Search 97 desarrollada por
Verity Inc., http://www.verity.com, una empress lider, a nivel mundial, por sus
soluciones para la gesti6n informativa y documental en plataforma inform8tica.
La instalaci6n de BullsEye es bastante diferente de otras vistas en este libro. Si se
conecta al servidor de la compaiiia, http://www.intelliseek.com, o si obtiene su copia
de un Tucows, lo que consigue es un lanzador de un proceso de ftp, que le conecta al
servidor propio de Intelliseek, permitiendo definir si ~610 desea el programa b&ico, o
bien si tambi&n desea 10s complementos 16xicos y de tratamiento de1 lenguaje. Para
obtener toda la potencialidad de BullsEye, es recomendable que seleccione la
instalaci6n completa. Tras obtener todos 10s ficheros (no se fie de la posibilidad de
interrumpir el proceso para continuarlo en otra ocasi6n: falla a menudo), el proceso de
instalaci6n comienza de forma automAtica, con las tipicas indicaciones de directorio
de instalaci6n. etc.

Figura 8.15. Proceso de carga de ficheros por ftp

8.4.1. La interfaz de usuario de BullsEye

La interfaz de usuario de BullsEye parece sencilla en un primer momenta, pero


ofrece gran cantidad de opciones que es necesario considerar. En primer lugar,
encontrara la clBsica barra de menti en la parte superior de la ventana; bajo ells, una
barra de botones que se activar&n dependiendo de las tareas que est& desarrollando.
Inmediatamente debajo aparece un espacio que se dedica, en la versi6n gratuita, a
mostrar publicidad y anuncios de tipo banner. Por liltimo, el resto de1 espacio se
dedica a seleccionar el tipo de informacibn que desea buscar (en la columna de la
irquierda), y a formular la expresi6n de bfisqueda y mostrar 10s resultados (en el
espacio a la derecha). El margen inferior de la ventana de la aplicaci6n mostrar& en so
parte derecha, unos botones que informan sobre la blisqueda y la presentaci6n de 10s
resultados.

Los menlis de BullsEye se despliegan en todas sus opciones cuando ha sido


realirada una biisqueda, asi que en primer lugar se va a revisar lo necesario para
desarrollar una. En primer lugar, observe la columna de la izquierda. Ofrece cabeceras
bajo 10s titulos IntelWeek, Search, Manage y Track. Pulsando en cada una de ellas
se despliega una columna con las opciones correspondientes. Las opciones recogidas
en IntelliSeek lanzan conexiones al servidor de la compaiiia, para informac%n,
productos, etc. Search da paso a las categorias en las que buscar en Internet. Como el
lector puede imaginar, esto quiere decir que BullsEye ofrece predefinidas categon’as
de informaci6n sobre las que buscar, y que, consecuentemente, ya ha preparado
listados de motores de blisquedas especificos para cada categoria. Si desea buscar
informacibn especifica sobre libros en Internet, pulse Books; si busca software, pulse
Software; si necesita informaci6n sobre medicina, pulse Health; si su necesidad es
m8s general, o no se encuentra recogida en ninguna de &as, seleccione Web, que
desarrolla un proceso sobre 10s motores gen&icos cMsicos (Altavista, Infoseek...).
Observe que la interfaz de interrogaci6n que aparece en el espacio situado a la derecha
se transforma conforme pulsa una u otra categoria. Manage gestiona las blisquedas
desarrolladas hasta el momenta, asi coma 10s resultados obtenidos. Pulsando las
opciones Saved Searches o Search History se muestra en el espacio de la derecha un
listado de las btisquedas, y se puede acceder a 10s resultados o volver a ejecutarlas,
pulsando en la linea correspondiente. Track facilita crear y definir perfiles de control
de las bhsquedas, coma revisiones peri6dicas o control de la modificaci6n de
documentos, es decir, un servicio de alerta y control, pero ~610 se encuentra disponible
en la versi6n Pro, de pago.

;I

r;4. I
l&h ~
/., $-Ed* ,* .’ .‘, BE
BullsEye’” by lntel,iSeek

Figura X.16. La interfaz de BullsEye


La cambiante interfaz de interrogaci6n que ofrece BullsEye en cada una de sus
categotias tiene elementos comunes. En primer lugar, en la park superior izquierda se
muestran dos etiquetas, Advanced y Defaults, cuya pulsaciOn da paso a la interfaz
avanzada de interrogaci6n y al control de las opciones predefinidas para la blisqueda.
El espacio en blanco situado delante de1 bot6n rojo con la leyenda Search se utiliza
para introducir la expresi6n de bfisqueda. Observe que la pulsaci6n de la flecha situada
a la derecha de ese espacio ofrece un listado de las bcsquedas desarrolladas hasta el
momenta. El men6 desplegable situado a la derecha ofrece tres opciones de anz?lisis de
la respuesta: No Analysis ~610 recupera 10s resultados de cada motor y ofrece el
listado de 10s mismos, aunque elimina 10s duplicados; Remove Dead Links
comprueba la existencia de 10s documentos o pBginas web originales, y elimina del
listado de respuestas aquellos que no responden o su 1ocalizaciSn resulta err6nea; por
tiltimo, Download and Analyze Results, obtiene una copia de todos 10s documentos
originales recuperados, y procede a su an&is de contenido, afiadikndolos a la base de
datos local.

Figura 8.17. Blisqueda de libros en Internet, opci6n Books

Esta presentacibn responde a lo que BullsEye denomina QuicKSearch. Si se desea


desarrollar blisquedas m& complejas, pulse la etiqueta Advanced. Se despliega una
ventana de diAlago con dos posibilidades: Search on the Web y Search within
Results. La primera de ellas es la que se utiliza para definir una expresi6n de
blisqueda compleja. En primer lugar, el men6 desplegable Select a Category from...
le permite establecer qu6 tipo de bfisqueda desea realirar. En cl cuadro de la parte
inferior debe introducir 10s tkminos a buscar. Observe que puede usar las opciones
ALL of the terms (Todos 10s tkminos), ANY of the terms (ninguno de 10s
tkminos), o bien usar el menti desplegable de Power Query, para crear una expresi6n
con 10s operadores booleanos AND, OR, AND NOT, y el operador de proximidad
NEAR (cerca de). La opci6n Ignore Case le permite discriminar o no entre
maylisculas y mimkculas. No deje de observar que si lo que desea es buscar una frase
exacta, debe introducirla entrecomillada. Por Gltimo, tambikn aqui puede seleccionar
las opciones de Analysis, al igual que el menti desplegable vista anteriormente.

Figura 8. IX. DiBlogo de Advanced Search

No acaban aqui las posibilidades de interrogaci6n. Si pulsa el bot6n Customize,


accede a un cuadro de di&logo en el que se le informa de 10s motores o bases de dates
a consultar, Select Search Engines. y puede afiadir o eliminar motores a consultar,
pulsando en la casilla de verificaci6n situada a la irquierda de cada uno de ellos, o
bien mediante 10s botones situados a la derecha. La obtenci6n de resultados, Get
results by, puede hacerse por relevancia (Relevance) o por fecha (Date), y puede
limitar el nfimero de resultados por motor, mediante Get no more than xx results per
engine.

Para un mayor control de 10s tkminos y expresiones a buscar en 10s motor%


BullsEye ofrece Query Wizard, ventana a la que se accede pulsando el bot6n
intermedio situado a la derecha del espacio de escritura de expresiones, y cuyo icono
es una varita migica. En este diilogo, en primer lugar se introducen todos 10s tkrminos
deseados, en el recuadro situado bajo la leyenda Enter ALL the terms that must
exist. Si se desea incluir varies tbminos, de forma que aparerca por lo menos uno de
ellos, higalo bajo Enter the terms that AT LEAST ONE OF must exist, y pot’
I72 RECUPERACloN DE LA INFoRMACrON EN INTERNET 0 KX~hW

liltimo, si desea excluir documentos que contengan ciertas palahras, escriha &as hajo
Enter the terms that CAN NOT exist.

Figura 8.19. Diilogo Query Wizard

Por Gltimo, recuerde que en la ventana de Advanced Search queda la etiqueta


Search within Results. Si pulsa sohre ella se le mostraG un dialoga en el que podrzl
definir, de forma muy parecida a lo ya vista, una expresi6n de btisqueda, pero con la
diferencia de que &ta ~610 se desarrollari sohre 10s documentos recuperados mediante
la expresi6n formulada en Search on the Web. Por ejemplo, podria formular una
expresi6n para recuperar informaci6n sobre Juan Ram6n Jimknez, pero luego limitarla
a 10s documentos que hiciesen referencia a Platero y Yo, por ejemplo.

Al volver a la interfaz de interrogaci&, pulse sohre la etiqueta Defaults. Se ofrece


una ventana en la que el usuario puede definir Queries, serialando Query Type y
Analysis, y Customize Search Engines. Se trata de opciones que ya conoce, y que
puede camhiar en cualquier moment0 durante el proceso de btisqueda. En estos
dialogos se establecen las opciones predefinidas, es decir, aquellas que se usa& a no
ser que el usuario especifique otras. Como podra comprobar, las opciones de motores
de blisqueda y de categorias a configurar se modificakn seghn la categoria de infor-
maci6n que estk usando en cada momenta.
8.4.2. Un proceso de blisqueda con BullsEye

La Academia de St. Martin in the Fields posee un reconocido prestigio en el campo


de la interpretaci6n de mlisica clkica. Imagine que le han encargado realirar un
estudio introductorio sobre la misma, y qniere completar la informaci6n que ya posee
con la que exista en Internet. Bien, active BullsEye, y seleccione la categoria Web (en
principio, pod& ser interesante usar Entertainment, pero podria perderse informaci6n
sobre el tema no relacionada con grabaciones musicales). MBs delante, si lo considera
oportuno, pod& realizar una bhsqueda por grabaciones musicales en Entertainment.
Pulse el bot6n Web de la columna Search. En la interfaz de interrogacibn, pulse la
etiqueta Advanced. En el cuadro de diilogo, mantenga la categoria Search the Whole
Web, e introduzca entrecomillada la expresi6n <<St. Martin-in-the-Fields> en el campo
destinado a las Keywords. Para desarrollar una bhsqueda y obtenci6n de documentos
completa, seleccione Download and Analyze Results. Pulse el bot6n Search y
espere. Se inicia la btisqueda, y el Brea de presentaci6n de resultados comienza a
presentar resultados a medida que reciben, se comprueban y se obtienen copias de 10s
documentos. En la parte inferior derecha, una barra de estado (Status) informa de1
desarrollo de1 proceso.

Terminado el proceso, se muesrra en la parre superior un listado de 10s documenros


obtenidos, con su titulo y un breve resumen de sus contenidos. El tftulo de la ventana
indica el nlimero de documentos recuperados (en el momenta de realizar esta
bhsqueda eran 20). Inmediatamente debajo, el listado de respuestas. La primera
columna indica la r&van& (100 es la m&xima), la segunda el titulo del documento,
la tercera el URL del original, y la cuarta el motor de blisqueda donde ha sido obtenida
(pueden ser varies). Si adem& pulsa sobre cualquiera de las referencias, inme-
diatamente debajo aparece la copia de1 documento original. La ventana de visua-
1izaciSn de1 documento in&ye un conjunto de b&ones que ofrecen funcionalidad
parecidas a las de una cliente web, coma ver siguiente, anterior, recargar, URL
original, etc. Por tiltimo, observe que en la esquina inferior derecha de la ventana de
BullsEye aparecen tres iconos cuya pulsaci6n permite visualizar la pantalla mixta de
resultados y visualiraci6n, ~610 la de resultados, o ~610 la de visualizaci6n de
documentos, segfin el inter& del usuario.

Figura 8 .21, Presentaci6n de1 listado de respuestas y de 10s documentos originales

Ahora que se dispone de una bkquedacon result a&s, han cambiado notoriamente
las opciones y posibilidades disponibles en la ban-a de men6 y en la botones. En el
menti File aparecen ahora opciones para guardar la blisqueda y sus resultados (Save),
para generar un informe de la bfisqueda realizada (Generate Report), o para exportar
las caracteristicas de la biisqueda (Export Search Settings). Tambiin podria fijar un
control de actualizaciSn de la blisqueda (Track), o enviar 10s resultados por correo
&ctrSnico (Mail). En el menfi Edit podria refinar la bkqueda dentro de 10s
documentos obtenidos mediante Advanced Refine Search, o bien marcar o desmarcar
10s documentos resultantes coma leidos o no, de cara a generar un informe (Mark y
SW opciones). El men6 View le ofrece opciones de ordenaci6n y de visualizaci6n de
10s resultados, coma View Results by Status o View Results by Score, Result
Layout, Result Columns, Summary o Highlight. Puede probar activando o
desactivando las diferentes opciones. A travks de1 menh Window acceder& a las
diferentes opciones disponibles en la columna de la izquierda de la ventana de
BullsEye, y el menli Help le ofrece una completa ayuda sobre las prestaciones de
BullsEye, y la forma de desarrollar recuperaciones de informaci6n exitosas. Por
Cltimo, la barra de botones le facilita iniciar nuevas blisquedas (New), o definir niveles
de anilisis (Analyze), refinar la expresi6n (Refine), cambiar el criteria de ordenaci6n
de respuestas (Results), o generar informes (Track). El m8s interesante puede ser el
bot6n Summary, que le permite cambiar entre el listado simple de resultados, y el
listado que ofrece el resumen de1 documento.

8.4.3. Opciones de configuracih de BullsEye


Las opciones de configuraci6n de1 programa se encuentran en el menfi Edit, bajo
las etiquetas de Options e Internet Options. Esta hltima abre el cuadro de dialogo de
configuraci6n de Internet de Windows 95/98, por lo que en principio no deberia
cambiar nada. Interesa m& Options, ya que define parimetros de1 funcionamiento de
BullsEye. La ventana BullsEye Options permite controlar estos par&metros. Las
posibilidades recogidas bajo las etiquetas Home, General, Display, Secure Sites no
deben ofrecer ninguna dificultad. Browser se usa para definir qu6 cliente web usara
para visualizar las paginas de forma externa a la aplicaci6n. Mail sirve para establecer
sus dates de correo electr6nico. Connection tambit% fija parametros de configuraci6n
de su conexi6n a la red, asi que es aconsejable no modificarlos si funcionan
correctamente. Startup sirve para que BullsEye compruebe cada cierto tiempo si hay
versiones nuevas de las categorias en el servidor de Intelliseek, y ejecute una
actualizaci6n de las mismas. M&s interesantes son las opciones recogidas en Searches,
ya que permiten establecer 10s tiempos de espera miximos para la obtenci6n de
respuestas (Stop search...), asi coma la optimizaci6n de tiempo y de espacio en disco
durante la blisqueda.

Figura 8.22. Opciones de configuraci6n de BullsEye


8.5. WEBSEEKER 98 3.4.0.3

WebSeeker es un searchbot desarrollado por Blue Squirrel, creadores tambikn de


otras conocidas herramientas, coma WebWhacker. Puede obtener una copia de
WebSeeker y de otros productos en http://www.bluesquirrel.com. Hay que seiialar que
la versi6n de WebSeeker aqui tratada es la de evaluaci6n, pero existe la posibilidad de
disponer de una versi6n freeware, m8s limitada, a la que se ha denominado
EasySeeker, y que tambit% puede obtenerse en el mencionado sitio web.

Una vez obtenida una copia de1 fichero de instalacibn, wsw953.exe, la familiar
doble pulsaci6n lanza el proceso, al cabo de1 cual tendr6 instalado WebSeeker en su
ordenador. Hay que destacar que la instalaci6n de WebSeeker instala en la propia
barra de tareas de Windows 95/98, en el Brea de sistema, el programa WebSeeker
FindNow, que permite lanzar una btisqueda a Internet tomando coma referencia texto
seleccionado en una aplicaci6n cualquiera de1 sistema. Este pequefio programa se
carga siempre al iniciar Windows, pero puede desactivarlo en cualquier momenta. Si
necesita ayuda para ello, consulte 10s libros de Ra-Ma sobre Windows 95/98, en 10s
que encontrara cumplida informaci6n. En cualquier case, siempre podra ejecutarlo
desde el men6 Programas, submenli Blue Squirrel WebSeeker.

Figura 8.23. Menti de acceso a WebSeeker

Durante el proceso de instalaci6n se le pedir& adem& sus datos para registrar la


copia. Es suficiente con introducir un nombre y una direcci6n de correo electr6nico.
Adem& se le preguntara si quiere que se afiada un bot6n de acceso direct0 a
WebSeeker, en la propia barra de botones de1 navegador que utilice. Seleccione la
opci6n a su gusto.

8.51. La interfaz de usuario de WebSeeker

La interfaz de usuario que ofrece WebSeeker es similar a la de otros senrchbots. En


primer lugar, una ventana de trabajo en la que se encuentran la barra de meniis y el
0 K&MA CAPiTULO 8:AGENTES DEBirSQUEDA PARA INTERNET 177

espacio o tiea de trabajo y de presentaci6n de la informaci6n. En Segundo lugar, un


diBlogo b&ante complete desde el que form&u las expresiones de bfisqueda, y desde
el coal seleccionar 10s motores a utilizar para desarrollar la btisqueda de que se trate.

Cuando se pone en marcha WebSeeker, aparece en primer lugar el dialogo Start


New Search, en el coal se pueden componer las expresiones de btisqueda y
seleccionar 10s motores contra 10s c&es se em&r&. En Keywords se nos muestra una
barra de botones que determinar&n que operador se usar& en la expresi6n (OR, AND),
o si &a es una frase (Phrase), o una cadena de texto dentro de otra mayor
(Substring). Debajo de estos botones se sitlia el campo en el que se introducirti 10s
t&minos a buscar. E inmediatamente debajo se encuentran las opciones de Type of
Search, que pueden ser InstantFind (la m&s ripida, ~610 elimina 10s duplicados),
CleanFind (elimina duplicados y enlaces no verificados) y FilterFind (la m8s lenta,
ya que hate todo lo anterior y ademb indiza 10s resultados para refinar las bhsquedas).
Domine su impaciencia, y no pulse todavia el bot6n Find Now. Antes vamos a
seleccionar 10s motores a utilizar. Pulse en Search Engines. Se accede a un dialoga en
el que se ofrecen varias categorias de motores de btisqueda, segfin el tema objeto de
nuestro inter&, asi coma la posibilidad de seleccionar motores especfficos den&o
de cada categoria. Si pulsa el men13 desplegable de Categories, observarz5 la apari-
ci6n de todo un conjunto de categotias, cada una de 10s cuales tiene definidos sus
motores especificos. Pulse en alguna de ellas, y vera c6mo autom&ticamente se
modifican 10s motores listados en el espacio inferior. Cuando selecciona una categoria,
todos 10s motores de la misma aparecen seleccionados (sobre fondo azul). Pulsando
sobre ellos puede seleccionarlos o no, o tambikn usando 10s botones Select A11 y
178 RECUPERAC16N DE LA INFORMACIt)N EN INTERNET 0 RA~MA

Clear All. Adem& puede fijar el ndmero mkimo de respuestas a recoger de cada
motor. cambiando 10s parsmetros de Limit number of results to. Ahora ya podria
pulsar tranquilamente ei b&n Find Now, y esperar el resultado.

Figura 8.25. El dUogo Start New Search: Search Engines

La interfaz de usuario pasaria a ser la ventana de la aplicaci6n que aparecia en la


parte posterior, y en cuya irea de presentacibn de informaci6n se nos indicaria el
estado de desarrollo de la consulta, asi coma 10s resultados obtenidos y el proceso que
ha tenido lugar sobre 10s mismos.

Figura 8.26. La ventana principal y el Brea de presentaci6n de informacibn


8.52. Un proceso de btisqueda con WebSeeker

Vamos a localizar informaci6n en Internet sobre el <<Libra de1 Buen Amow, escrito
por Juan Ruiz, Arcipreste de Hita, en el siglo XIV. En el cuadro de dUogo Start New
Search, introducimos la expresi6n ulibro de1 buen amorn, pulsamos el bot6n Phrase,
y seleccionamos Type of Search, FilterFind, opci6n que aunque m8s lenta, nos
permitira obtener un indice elaborado de 10s documentos recuperados. Pasamos al
diBlogo Search Engines. De todas las categotias posibles, la m8s adecuada, aunque
pueda parecer lo contrario, es la gen&ica web, ya que no hay que olvidar que estos
productos, cuando ofrecen opciones especializadas, suelen hacerlo pensando en el
usuario norteamericano. Dejamos seleccionados todos 10s motores, ya que WebSeeker
se encargara de eliminar duplicados, y pulsamos el bot6n Find Now

Figura 8.27. Inicio de la bfisqueda

WebSeeker lanza las blisquedas contra todos 10s motores, mforma de1 estado de1
proceso, y comienza a recibir resultados, asi coma a procesar el contenido. Las barras
de Searching y de Indexing nos informan de1 estado del proceso de blisqueda y de1
proceso de indizaci6n de resultados. Observe que ambos corren parejos, ya que en
cuanto empieza a recibir resultados, 10s verifica y analiza su contenido. A la derecha,
Total Engines nos indica el nhmero de motores consultados, Results el niimero de
documentos obtenidos, y Filtered Pages 10s documentos cuya existencia ha sido
verificada. En el espacio inferior se informa de1 proceso mediante un listado.

El listado muestra, e n p r i m e r lugar, 10s motores consultados, el proceso


desarrollado (Process), el estado de1 mismo (Status), y el ntimero de documentos
recuperados (Results). Inmediatamente debajo de la lista de motores, comienza el
listado de documentos recuperados, que han sido verificados, indizados, y cuyo
resultado (Results) puede haber sido Older, N/A o vacio. En cualquier case, cuando
acabe el proceso, WebSeeker nos preguntari si deseamos visualizar el resultado, a lo
que responderemos afirmativamente. En este momenta, WebSeeker 1lamar~S a nuestro
navegador, y le pasara 10s resultados ya procesados, en form&to de pagina web local.
En esta ocasi6n, la blisqueda ha sido adecuada: precisamente 10s primeros enlaces
ofrecen ya una completa informaci6n sobre el Libro de1 Buen Amor y su autor, y
sirven coma punto de partida para el descubrimiento de m&s informaci6n. Incluso
puede desarrollar una navegaci6n local de 10s documentos, ya que WebSeeker se ha
traido una copia a su ordenador (sin grzificos, para aligerar el proceso).

Figura 8.28. Informaci6n de1 desarrollo de la btisqueda en el listado de motores y


documentos

De vuelta a WebSeeker, ahora puede guardar la blisqueda usando el menh File,


opci6n Save As, o bien la opci6n Write Web Page, si lo prefiere en format0 HTML.
Si quiere obtener datos m8s precisos sobre un resultado, selecci6nelo, y use el menh
Edit, opcidn Properties. Se abre una ventana que le informa de1 motor que lo envi6,
el titulo y de1 URL. de la pagina en west%“, de las fechas de modificaci6n. etc. Si,
por ejemplo, desea variar el criteria de ordenaci6n de resultados, basta con acudir al
menli View, opci6n Sort By, y probar con las tres disponibles. Siempre podra ver,
adem& el resumen elaborado por WebSeeker de1 documento en cuesti6n. Para ello
basta con pulsar sobre el documento, y pulsar y arrastrar sobre la barra vertical que
aparece en el lateral derecho de la ventana de trabajo. Si arrastra hacia la izquierda, se
abre un espacio en el que se muestra el resumcn (abstract), de cada uno de ellos.

La potencia de WebSeeker reside tambit5n en su capacidad de mejorar, controlar y


refinar las btisquedas ya realizadas. Por ejemplo, en cualquier moment0 puede renovar
la btisqueda y sus resultados usando el menh Search, opci6n Start/Renew, que vuelve
a desarrollar todo el proceso. 0 bien puede cambiar 10s motores sobre 10s cuales
realizar la bhsqueda, mediante la opci6n Expand Search de1 mismo menh. Para
aquellos resultados que m&s le interesen, ofrece la posibilidad de monitorizarlos, de
comprobar cada cierto tiempo su &ado, mediante la selecci6n de 10s mismos, y la
pulsaci6n de1 bot6n con el icono de un ojo, existente en la barra de herramientas (Sets
to Monitored). Esto es posible gracias a que WebSeeker incorpora la posibilidad de
crear una agenda de ejecuci6n de las bcsquedas, para que cl usuario mantenga 10s
resultados actualizados. Para ello, debe acudir al men6 Search, y pulsar la opcidn
Schedule. Esto le conducira al diilogo Preferences, Scheduling. En la parte izquierda
de esta ventana, marcando la casilla Enable schedule search, se activarti 10s
par&metros situados debajo, que le permitirin fijar la frecuencia, dia y hora de la
actualizaci6n automatica de las blisquedas y de sus resultados, asi coma de 10s
documentos marcados para monitoriraci6n

II’izbSzeker results for


lib-0 de1 hen amor

Figura 8.29. Visualizaci6n de resultados en el navegador local

Donde resulta especialmente potente WebSeeker es en el mecanismo para ajustar y


refinar las expresiones de b6squeda. Para ello, una vez desarrollada una blisqueda y
obtenidos resultados, acuda al menli Search, y pulse la opci6n Refine. Se abre un
cuadro de dialog0 en el qne aparece la expresi6n buscada, en el campo Find, y debajo
un campo con un men6 desplegable que permite formar expresiones complejas usando
10s operadores AND, OR, BUT NOT (pero no), FOLLOWED BY (seguido par) y
NEAR (cerca de). Por ejemplo, si desearamos eliminar documentos en 10s que
apareciese el tkrmino ccserrana,,, usan’amos el operador BUT NOT, etc., hasta crear
expresiones verdaderamente complejas. Y si adem& pulsa el bot6n Advanced, el
182 RECUPEKACION DE LA lNFORMAClON EN INTERNET ORA~M\

cuadro de dihgo que aparece seguidamente le va a permitir war operadores, limites y


filtros que no podia imaginar (eso si, no olvide usar la ayuda para conocer todas las
uosibilidades que se le brindan aqui). En cualquier case, pulse el both OK, y podrSi
comprobar c&o mejora la valoracihy precisih de Las respuestas.

Figura 8.30. DiBlogo Preferences - Scheduling

Figura 8.3 I DiAlogo Refine


0 RA~MA CAPiTULO 8: AGENTES DE BiiSQUED.4 PAR.4 INTERNET 183

8.5.3. Configuracih de WebSeeker

La configuraci6n de WebSeeker es mzIs completa que la ofrecida por otras


aplicaciones, Para tener acceso a 10s cuadros de dialogo de la misma, use el menti
Tools, opci6n Preferences. El dialogo Instant Update sirve pxa definir las
actualiraciones automaticas de1 propio programa WebSeeker. En Internet se definen
par&netros de configuraci6n de1 navegador de su ordenador, asi coma la utilizaci6n de
un servidor proxy. Searching establece las caracteristicas de 10s ficheros de log.
Saving se usa para definir el directorio en el que almacenar las btisquedas. Scheduling
define las caracterfsticas de actualizaci6n y ejecuci6n de las blisquedas.

Mb interesantes para la recuperaci6n son 10s dialogos Search Limits, Search


Engines, View y Writing. En Search Limits se fijan parametros sobre mimer0 de
conexiones simult&neas, tiempos de espera, nhmero de documentos recuperados y
tamario, en kilobytes, de 10s mismos. El diAlogo Search Engines nos da un listado de
10s motores disponibles y de las categoria en las que se estructuran, ofreciendo la
posibilidad de crear nuevas categorias y cambiar 10s motores entre ellas. Si se
pregunta si es posible afiadir nuevos motores al listado, la respuesta es afirmativa, pero
para ello debe acudir al men6 Search, opci6n Add Custom Engine, en la cual un
asistente guiado le ayudarB en todo lo necesario.

Figura 8.32. DiAlogo Preferences _ View

El dilllogo View define 10s parametros para la presentacibn y wsuahzaci6n de 10s


documentos resultantes de la btisqueda. Include establece si se incluyen 10s nuevos
documentos, 10s ya existentes, 10s que ha sufrido alghn cambio, o 10s err6neos.
Exclude establece la eliminaci6n de duplicados, tanto de URL coma de titulo, coma
10s de documentos monitorizados. Layout define la presentaci6n en vertical o en
horizontal. Abstract View fija el nso de1 navegador para ver 10s restimenes de 10s
documentos recuperados. Por Gltimo, Images indica si se inclnira la visualizaci6n de
las imigenes cuando se acceda a 10s documentos recuperados. El tiltimo diilogo,
Writing, determina 10s ficheros en 10s qne se almacenark en principio el resultado,
tanto en URL coma en HTML, asi coma qne en la presentaci6n en el navegador se
realcen las palabras clave y se muestren 10s reknenes (HTML Additions).

8.6.COPERNIC 2000 4.55


Copernic 2000 es uno de 10s searchbots m&s utilizados por 10s usuarios de este tipo
de herramientas, ya que se obtiene de forma gratuita, y las prestaciones qne ofrece en
esta versidn son bastante superiores a 10s de otros freeware. Es un product0 de
Copernic Technologies Inc, disponible en www.copemic.com. El proceso de
obtenci6n de la copia y la instalacibn es estandar (ejecute el fichero copernic2000.exe
y siga las instmcciones). Adem&, tiene la ventaja de poder realizar actualizaciones
automiticas gracias a su funci6n Update Available, que trataremos m&s adelante.

8.6.1. La interfaz de usuario de Copernic 2000

La ventana de trabajo que ofrece Copemic 2000 al usuario responde a esquemas ya


analizados anteriormente: una barra de men& una barra de botones, y dos Areas que
ocupan el resto de la ventana. Parte de,!os menfis y botones se encontraran en gris,
inactivos, hasta que el usuario desarrolle un proceso de blisqueda. En el tiea vertical
de la irquierda, con el titnlo Categories, nos va a mostrar 10s grnpos de categon’as
disponibles para la bGsqueda, que en la versi6n gratnita se reduce” a The Web,
Newsgroups, Email Addresses, y Boy (Books, Software, Hardware). En cada una
de las categorias, Copernic 2000 trae definido un conjunto de motores a ntilizar para
resolver las cuestiones planteadas por el usuario. El resto de las categorias e&n
disponibles adquiriendo Copernic Plus/Pro, la versi6n comercial. A pesar de esta
limitaci&, Copernic resulta extremadamente 6til con su categotia The Web. A la
derecha de este panel, el tiea se divide en dos paneles horizontales. El superior nos
indicarB las consultas realizadas, indicando 10s tkrminos usados (Keywords), el modo
de btisqueda (Mode), la actualizaci6n (Updated), el “firnero de respuestas obtenidas
(Matches), y la categoria sobre la que se ha desarrollado el proceso (Category). En el
panel inferior se nos mostrara nn listado de 10s documentos recuperados en cada una
de ellas, sefialando el titulo de1 docnmento (Title), su URL original (Address), la
adecuaci6n de1 documento a lo planteado (Score) y el motor de1 qne se ha obtenido
esa respuesta (Engine). Al realizar una bhsqueda y obtener resultados, comprobari
c6mo estos datos se completan con un pequeiio resumen del contenido de1 documento.

Al contrario que otros searchbots, Copemic 2000 no ofrece directamente la


posibilidad de formular una expresi6n de blisqueda. Para ello, dispone de tres
opciones: menli Search, opci6n New; pulsar el both New en la barra de botones; o
pulsar directamente la categoria que le interese en el panel izquierdo de la ventana. Si
opta por las dos primeras, en primer lugar Copernic le pediri que seleccione una
categotia. Si opta por la tercera, pasara directamente a form&r la expresih que le
interese.

Figura 8.33. Interfaz de Copernic 2000

Figura 8.34. Seleccihde categoria a buscar


Tras la selecci6n de la categorfa, observe que en la esquina inferior izquierda
aparece un botdn con on icono de varita migica. La pulsaci6n de1 mismo activa o
desactiva el ayudante para formular b6squedas (EnableDisableWizard). Hasta que
conozca on poco m&s Copernic, no desactive el ayudante. Pulse el bot6n Next, y
observe el cuadro de diilogo. En el espacio situado bajo la leyenda Enter the search
keywords you want to look for puede introducir ya 10s tkminos o expresi6n que
desee. Introduzca el que desee. Bajo el mismo se le ofrecen varies ejemplos. Aparece
marcada la casilla Skip advanced seach steps, lo cual quiere decir que si pulsa el
bot6n Search Now, el proceso se pondrB en marcha. Sin embargo, coma ya conoce
bastante estos procesos, desmarque la casilla y pulse el bot6n Next, ya que esto le
permit5 controlar m&s parkmetros de1 proceso de btisqueda.

Search Words
,rdsyo”vmtto lookfor:

.\ cancei 1 ‘Back /

Figura 8.35. DiBlogo Search Words

En el siguiente dialogo podra seleccionar el modo de btisqueda. Se le ofrecen tres


opciones. La primera de ellas, Search for all words, establece que todos 10s tkrminos
introducidos deben aparecer en el documento. La segunda, Search for any keyword,
hate que aparercan uno u otro (es deck, el operador boolean0 OR), mientras que la
tercera, Search for exact phrase, indica que la expresi6n usada es una frase completa,
y debe considerarse coma tal.

Pulse de nuevo el botSn Next. Ahora puede decidir lo que Copernic llama Search
Scheme, y que corresponde al nfimero de respuestas que desea obtener de cada motor,
asi coma el nlimero m&ximo total. Las posibilidades ofrecidas se encuentran pulsando
el menti desplegable Search Scheme. Observe c6mo cambiando las posibilidades
cambia automiticamente el ntimero de resultados por motor (Maximun results per
engine) y el total (Total results). Si lo desea, puede activar sus opciones para todas
ORAMh c.wiTum 8: AGENTES DE BiJSQUED.4 PARA lNTERNET 187

las bhsquedas pulsando el both Defaults. Por tiltimo, ya puede pulsar el both
Search Now. Observe que en cualquier momenta puede volver a 10s diBlogos
anteriores oulsando el both Back, o bien anular el proceso pulsando Cancel.

Figura 8.36. Seleccihde Search Mode

Figura 8.37. Seleccihde Search Scheme


188 RECUPERACKm DE LA rNFoRMAClON EN INTERNET 0 RA-MA

Tanto el resto de las opciones disponibles en Copemic 2000, coma la presentaci6n


y anAlisis de 10s resultados obtenidos, se activan durante y desput% de la ejecuci6n de
un proceso de btkqueda.

8.6.2. Un proceso de brisqueda con Copernic 2000

Una vez conocido el aspect0 y funcionamiento de Copernic 2000, vamos a


desarrollar un proceso de recuperaci6n de informaci6n en Internet. Copemic ofrece
entre sus prestaciones la posibilidad de filtrar 10s duplicados y eliminar 10s enlaces a
documentos no disponibles, asi coma obtener copias de 10s documentos originales,
incluyendo 10s grificos e imigenes incluidos, y estas caracteristicas van a ser
utilizadas en el proceso.

La manzana es una importante fuente de vitaminas para la salad. Es necesario


obtener informacibn sobre una de las enfermedades que pueden afectarla seriamente,
conocida coma <(bitter pit>>. Para comenzar la btisqueda, pulse sobre el bot6n New.
Como ya conoce el use de1 asistente, ahora desactivelo pulsando el bot6n situado en la
esquina inferior izquierda de la ventana (Disable Wizard). Aparece la ventana de
dialog0 estandar para form&r expresiones, que ofrece una ventana con tres diz!logos,
accesibles mediante las solapas de la park superior: Query, Details y Tracking. En
Query, puede definir la categoria de blisqueda, mediante el men6 desplegable situado
en Category. Observe que si pulsa el botdn Properties, acceder6 a un nuevo cuadro
de diBlogo en el que podr5 modificar el listado de motores a consultar. Despuk
introduzca la expresi6n *bitter pitx en Keywords. Marque la opci6n Search for exact
phrase, ya que estos thminos aislados son comunes en muchos tipos de textos en
Internet. Juste debajo de esta opci6n, aparece el men6 desplegable Automated task.
Las cuatro opciones posibles le permiten establecer si ~610 va a realirar la bhsqueda
(None), si adem% quiere confirmar la existeneia del document0 original (Validate
documents), si tambikn quiere obtener una copia de 10s mismos para su ordenador
(Download documents), y si quiere refinar 10s resultados obtenidos mediante una
nueva expresi6n de condiciones (Refine search). Iremos viendo estas posibles
opciones m& adelante, por lo que debe optar por None.

Si pulsa sobre Details, podra seleccionar las opciones de Search scheme, vistas
anteriormente, mediante un menti desplegable. Por tiltimo, Tracking permite fijar
intervalos de revisi6n de las btisquedas cada cierto tiempo, aunque esta opci6n ~610 se
encuentra disponible en la versi6n comercial. Vuelva a Query y pulse el bot6n Search
Now. Inmediatamente, Copemic lanza una pregunta al servidor de la empress,
actualiza 10s datos de 10s motores a consultar, realira 10s cambios pertinentes, y pone
en marcha la blisqueda (el usuario puede desactivar este proceso si lo desea). Se abre
una ventana que nos informa del proceso de consulta de 10s diferentes motores, asi
coma de 10s resultados obtenidos. Al terminar, se nos pregunta si deseamos que
muestre 10s resultados. Respondemos negativamente, ya que lo haremos m&s adelante.
Query 1 Detalis 1Tracking 1

C Search for@ words


C Search for anyword
F Searchforexadphrase

Automatedtask

None More
-1 - J

.A [ OK 1 Cancel 1

Figura X.38. Formulacilin de la blisqueda <<bitter pit-


El asp&o y prestaciones de Copernic 2000 han variado. En primer lugar, todas las
funciones de la barra de b&ones se encuentran activadas. En el panel superior derecho
se muestra una entrada en la que se nos informa de haber desarrollado una btisqueda
usando coma Keywords la expresi6n <<bitter pitr, el 16 de enero de 2000, con 76
respuestas. En el panel inferior derecho, se nos muestra el listado de documentos
obtenidos coma respuesta. Primero, observe que la aparicibn de la frase se encuentra
resaltada en color amarillo. Segundo, que las respuestas se encuentran ordenadas en
fun&n del Score o puntuaci6n obtenida. Tercero, en cada respuesta se nos indica que
es un documento nuevo, que no esta seleccionado (las dos columnas m8s a la derecha
de1 panel), el titulo, URL, puntuaci6n y origen de la respuesta, asi coma un minima
resumen. Observe que la presentaci6n de1 listado de respuestas se puede variar
pulsando 10s botones Summaries, Highlight y Zoom en la barra de botones. Por
liltimo, una doble pulsaci6n en una respuesta lanza nuestro navegador con una

Figura 8.40. Presentaci6n de 10s resultados obtenidos

Copernic 2000 es rkpido obteniendo resultados. Sin embargo, el hnico filtro


aplicado sobre 10s mismos ha sido la eliminaci6n de duplicados. Por lo tanto, hay que
realizar un nuevo filtrado para eliminar aquellos documentos que, aunque presentes en
las bases de dates de 10s motores, ya no se encuentran disponibles en la localizaci6n
indicada. De esta forma se evitarA conexiones fallidas con el omnipresente <<error
404~. Para ello, pulse el bot6n Validate y se abriri un cuadro de diGgo en el que
debera marcar la opci6n Remove unreachable documents (Eliminar documentos no
disponibles), y pulsar el b&n Validate. Inmediatamente Copernic lanza conexiones a
todos 10s documentos originales, eliminando de la lista de respuestas aquellos no
localizados en las direcciones disponibles. Es interesante que en el cuadro de dijlogo
que se le muestra pulse el bot6n Details, ya que podri apreciar el desarrollo de1
proceso de comprobaci6n. Al terminar, Copernic le informari de1 ntimero de
documentos eliminados.

Figura 8.41. Proceso de validaci6n de respuestas obtenidas

M&s potente es la opci6n Download. Mediante ksta, podra obtener una copia de 10s
documentos originales, incluyendo 10s grZcos e imzigenes, creando una base de dams
en su propio ordenador que podrB utilizar luego para explorar y analirar 10s
documentos resultantes sin necesidad de war tiempo de conexi6n. Para ello, pulse el
bot6n Download, situado en la barra de botones a la derecha de Validate. En
el cuadro de dialogo siguiente, observe que tambikn puede efectuar la validaci6n
anterior, pulsando la opci6n Remove unreachable documents, y que debe pulsar la
opci6n Download images, si desea disponer tambi& de una copia en su ordenador de
las imigenes que aparecen en 10s diferentes documentos. Pulse el b&n Download
para iniciar el proceso. Para observar su desarrollo, pulse el b&n Details en el cuadro
de diGgo. Podra ver el proceso de obtenci6n de copias de 10s documentos y de las
ikgenes contenidas en 10s mismos.
Una vez terminado el proceso, ahora puede pulsar el bot6n Browse. Copemic
pas& 10s resultados en formato de pagina web a su navegador. Observe que la pagina
resultante presenta la informacibn de manera similar al listado de1 panel inferior
derecho de Copemic 2000. Se indica el titulo, se resaltan 10s ttkminos, se indica el
motor de origen, se puede ver el Score obtenido, y debajo de cada referencia se
muestra el URL de1 documento original, asi coma el fichero situado en su propio
ordenador, en el que se encuentra el documento en cuesti6n. Si pulsa sobre el enlace
que comienza por file:///, se mostrari su copia local de1 documento. Si por alglin
motive necesita acceder al documento original, use el enlace situado encima de &te,
que comienza por http://. Coma se ha indicado anteriormente, puede war esta opcidn
para estudiar con tranquilidad 10s documentos resultantes y su contenido informative
sin necesidad de permanecer conectado de forma permanente.

Figura 8.42. Proceso de obtenci6n de copias de documentos originales

Observe, por otra parte, que desde que dispone de resultados de bfisqueda, se ha
activado un ventana de diilogo en Copernic 2000, bajo el titulo Search Results, que
permite ver directamente las respuestas, de forma individual, usando el men6
desplegable, asi coma variar el orden de presentacidn, usando para ello 10s botones de
movimiento y cl men6 desplegable Sort by.
a:+--- ‘Do&Gnt: Done ii+ ii ,I)? m \a /’

Figura 8.43. La pagina de respuestas en form& HTML, con la ventana Search Results

8.6.3. Otras prestaciones y posibilidades de Copernic 2000

Las funciones recogidas en 10s menhs de Copernic 2000 se encuentran disponibles


a trav& de 10s cuadros de dialogos y ventanas ya presentadas. Las opciones recogidas
en el men6 File permiten abrir las paginas web de 10s resultados, crear carpetas, y
enviar 10s resultados por correo electrdnico o exportarlos a diferentes formatos. Las
opciones recogidas en el menli Edit facilitan copiar y pegar, asi coma seleccionar o no
documentos, y encontrx palabras en 10s documentos. Mediante View se controlan
aspectos de presentaci6n y ordenaci6n de las respuestas. Las opciones reunidas bajo
Search responden a las recogidas en la barra de botones, coma New o Update
Search. Results ofrece las ya conocidas opciones de Validate o Download. El menti
Tools facilita la obtencidn de actualizaciones de Copernic (Check Updates Now),
conocer las caractetisticas y propiedades de cada categoria (Categories...), o fijar
parametros de configuraci6n general de Copernic 2000, mediante Options, con un
cuadro de diBlogo que da acceso a criterios coma la presentacidn de algunas
caracteristicas de la interfaz de1 programa, el tiempo de espera de respuestas o el
navegador preseleccionado para mostrar 10s resultados. Por tiltimo, el men6 Window
nos facilitari movernos entre diferentes ventanas de btisqueda, y Help nos ofrece la
ayuda en linea de la aplicaci6n.

Ha quedado para el final la explicaci6n de Refine, opci6n situada a la derecha del


bot6n Download, dentro de la barra de botones correspondiente. Al pulsarla, se
muestra un cuadro de diilogo, Refine Search, que permite afinar 10s resultados de la
btisqueda, introduciendo tkrminos contra 10s que compara 10s documentos resultantes,
ya que el afinado se ejecuta ~610 sobre el conjunto de documentos obtenidos durante la
blisqueda. Par lo tanto, puede componer una expresi6n nueva, usando 10s operadores
AND (contiene todos 10s tkminos), OR (cualquiera de 10s thminos), EXCEPT
(excluye 10s documentos que contienen esos thminos), y NEAR (fija una separaci6n
maxima de 10 palabras entre la posici6n en la que aparecen 10s tkminos indicados).
Observe que incluye, por otra parte, opciones para establecer la aparici6n de palabras
completas (Match whole words only), la coincidencia de maykulas y minlisculas
(Match case), y la eliminaci6n de 10s documentos que no cumplan las condiciones de1
listado de respuestas existente (Remove non-matching documents). Para probar,
refine 10s resultados eliminando aquellos en 10s que se hable de ncalciunw, utilizando

Figura 8.44. DUogo para afinar 10s resultados, mediante Refine

Como la carencia de calcio esta muy relacionada con esta enfermedad, podra
comprobar c6mo han sido eliminados gran parte de 10s resultados, para cumplir con la
condici6n planteada para afinar la b6squeda. Este ejemplo, que en condiciones
normales no se aplicaria, sirve para demostrar el potential de afinamiento de 10s
resultados ofrecido por Copernic 2000.
8.7. MATAHARI V. 2.01

MataHari es on potente producto de The Webtools Company, que puede obtenerse


en so servidor web, http://thewebtools.com. Actualmente, la compaiiia y el producto
pertenecen a VisualMetrics Corp. Una revisi6n de 10s motores que ofrece MataHari le
permitirSi apreciar que cubre todo tipo de categorias, incluyendo motores de bhsqueda
tematica altamente especializados. Junto a ello permite desarrollar expresiones y
ecuaciones muy complejas, lo que lo convierte en una hermmienta de gran calidad. La
hnica limitacid” que puede encontrar es so tiempo de use, limitado a 30 dias si no
adquiere una licencia comercial.

8.7.1. La interfaz de MataHari

La interfaz de MataHari no es tan compleja coma puede parecer en una primera


revisi6n. La ventana de la aplicaci6n ofrece la barra de memis y la barra de botones.
Debajo aparece el espacio necesario y las cajas de dialogo para formular una o dos
expresiones de bhsqueda. El espacio situado inmediatamente debajo de 6stos se utiliza
tanto para presentar 10s resultados de las btisquedas, coma para fijar 10s par&netros de
las mismas. Observe que en la park inferior de la ventana se mu&ran unas etiquetas,
cuya pulsaci6n da paso a diferentes di&logos, que iremos tratando m8s adelante.

Figura 8.45. Aspect0 de la interfaz de MataHari


8.7.2. Una blisqueda con MataHari

En este case, vamos a desarrollar una bhsqueda de informaci6n sobre el grupo de


mtisica c&a gallego Luar na Lubre (le recomendamos la audici6n de su mtisica,
tranquilizadora y evocadora). En la caja de dialago situada tras la leyenda Query 1,
introduzca la expresi6n nLuar na Lubrw. No olvide entrecomillarla (coma es una
expresihn de frase, ya sabe que en 10s sistemas de RI/IR se suelen introducir entre
comillas para evitar problemas. Ahora vamos a seleccionar 10s motores de btisqueda
sobre 10s que se desarrollar& la btisqueda. Pulse sobre el b&n Agents. Se abre un
cuadro de dizllogo en el que podri seleccionar el grupo de motores de bhsqueda,
genkricos o especialirados, que ser&n consultados por MataHari. En el cuadro de la
izquierda dispone de 10s motores agrupados por tenkicas. En principio, siempre
aparecen seleccionados 10s correspondientes a la categotia A Starting Point, listados
en el cuadro de la derecha, y que coma puede observar son 10s ckicos genbicos.
Volvamos al cuadro de la izquierda. Observe que delante de cada grupo se muestra un
icono de una lupa, y que pulsando en ella se abre o se cierra el listado de motores que
conforman la categoria en cuesti6n. Advierta ademh que entre 10s dos cuadros
aparecen dos botones con un icono de flecha, que permiten aiiadir categon’as
completas o motores individuales al listado de la derecha. Coma puede imaginar, este
listado es el que usar& MataHari para desarrollar el proceso, y el usuario podr&
consecuentemente, personalizarlo seglin sus necesidades. Para empezar, pulse el bot6n
Cl&W. situado bajo el cuadro de la derecha

Groups

Figura 8.46. Cuadro de selecci6n y definici6n de m&ores a utilizar

Ahora, mueva la barra de desplazamiento de1 cuadro de la izquierda hasta


encontrar l a categoria M u s i c . P u l s e s o b r e el icono para ver 10s m&ores
preseleccionados. Ahora, pulse el bot6n con el icono de flecha a la derecha. Vera
c6mo 10s motores de la categotia han sido seleccionados. Si desease desactivar alguno,
bastark con pulsar sobre la casilla de selecci6n situada a la izquierda de cada nombre.
Para terminar, pulse el bot6n Done. Vuelve a la interfaz general de MataHari, y ya
~610 tiene que pulsar el bot6n Go Internet. La bfisqueda se pone en marcha.

Mientras se desarrolla la misma, 10s resultados se van mostrando en la ventana de


presentaci6n, mientras en la linea de estado de la aplicaci6n se muestra el mensaje
Internet search in progress... al tiempo que se indica el m’unero de documentos
obtenidos, 10s aceptados, 10s rechazados y 10s que se encnentran en proceso.
Sorprendentemente, en cl moment0 de redactar estas lineas, el resultado fue nolo. Esto
se ha debido a que la seleccidn de categoria ha sido err6nea (recuerde lo expuesto en
el capitulo sobre teorfa de la recuperaci6n). Procede cambiar el enfoque. Volvemos a
pulsar el bot6n Agents. En primer lugar, usamos Clear para eliminar la selecci6n de
motores, y despuks comenzamos por lo clzkico: seleccione la categorfa A Starting
Point, y pulse el bot6n de flecha a derecha. Para terminar pulse Done. De vuelta a la
ventana principal, pulse de nuevo Go Internet. El proceso comienza de nuevo.
Conforme se van obteniendo resultados, y comprobando 10s documentos, va
cambiando el icono que precede a cada linea de documento, seg6n su &ado. Tambiin
podra ver que el proceso con MataHari es de larga duraci6n, pero 10s resultados

Figura 8.47. Desarrollo de la basqueda con MataHari


Ahora si se han obtenido resultados con un alto indice de precisi6n. Mientras se
desarrolla la consulta, o b s e r v e q u e MataHari comprueba directamente, s i n
intervenci6n de1 usuario, la disponibilidad de1 documento original. Y mis adelante
comprobara que tambi& obtiene una copia local de 10s documentos origin&s, pero
con algunas limitaciones.

Para empezar, observe que ahora se muestran activos todos 10s botones de la barra,
a excepci6n de Stop. En el Area inferior de presentaci6n de resultados, se muestra el
listado de documentos recuperados, indicando en cada linea, y por este orden, si ya
han sido vistas por el usuario en la columna Status (icono de sobre cerrado
amarillo/sobre abierto Verde), en Score la pertinencia al tema buscado (de 100 a 0;
pulse sobre Score hasta que el primer documento mostrado tenga la puntuaci6n m8s
alta), en Rank si han sido reordenados 10s resultados en virtud de alglin criteria nuevo
(se verB seguidamente), en Title se muestra el titulo de1 documento, en URL la
direcci6n de1 documento original, y en Size su tamafio. Si pulsa una vez sobre
cualquiera de las cabeceras comprobars c&no cambia el orden de presentaci6n de
resultados.

Figura 8.48. Presentaci6n de resultados

En primer lugar, y para aligerar su gasto en comunicaciones, vamos a wear una


base de dams local con 10s resultados de su bkqueda. Esto no permitira trabajar con
ellos sin necesidad de estar conectados. Pam ello, vaya al men6 File, y seleccione la
opci6n Save. En el cuadro de dialogo que aparece, asignele un nombre al fichero, y
seleccione el form& Database Files (*.mhd). Pulse Guardar. Ya puede
desconectarse de Internet. Si desea ver alguno de 10s documentos recuperados, basta
con pulsar una vez sobre la linea de1 mismo, y pulsar el bot6n Viewer (que activa el
visualizador propio de MataHari), o el bot6n Browser (que lanza una sesi6n del
cliente web instalado en nuestra m8quina). En ambos cases, si estamos conectados
mostruB tambit% las imhgenes, pero no lo hara si estamos trabajando fuera de linea o
en modo local. En cualquier case, siempre que vea un listado de resultados, la
pulsaci6n de1 bot6n derecho de1 rat& sobre la linea de documento hara aparecer un
men6 emergente, con el cual podra visualizar el documento con el navegador (View
with Browser), borrar la linea (Delete Url), copiar el URL al portapapeles (Copy Url
to Clipboard), seleccionarlo coma criteria para reordenar 10s resultados (Mark URL
for Re-Ranking), reordenar 10s resultados (Re-Rank), o realirar alguna anotaci6n
propia sobre el documento en cue&in (Annotate Url...).

8.7.3. El anhlisis de resultados con MataHari

MataHari es la herramienta m8s potente, en el momenta de escribir estas lineas,


para analizar 10s resultados obtenidos tras un proceso de bfisqueda en Internet. En
primer lugar se van a analizar las opciones de Rank. Se trata de un mecanismo que
permite reordenar la presentaci6n de resultados, de acuerdo con el inter& de1 usuario,
usando coma criteria el contenido de una pagina web recuperada. Por ejemplo,
imagine que la que m& se aproxima a su inter& no es la primera, con un 99 de Score,
siendo mejor la octava, con un 69. Para reordenar 10s resultados, usando coma criteria
la pagina de su inter&, seleccione la linea correspondiente a &a, y pulse la parte
izquierda de1 bot6n Re-Rank, situado en la barra de herramientas. La pagina en
cuesticin queda marcada coma criteria bisico. Ahora pulse la parte derecha de1 mismo
both”. MataHari procede a reordenar 10s resultados usando el contenido de &a coma
punto de comparaci6n para las otras. Si ahora pulsa en la cabecera de la columna
Rank, podrB apreciar c6mo dispone de varias opciones de ordenaciSn, atendiendo a
diferentes criterios. La p&&a usada coma criteria obtiene un Rank de 100, y su icono
ofrece un color azul. Sin embargo, no es la linica manera de analizar la pertinencia de
10s documentos obtenidos. MataHari ofrece la ventaja de mostrar varies tipos de
ordenaci6n por pertinencia. Para ello, pulse sobre la pestafia con la leyenda Scores,
situada en la parte inferior de la ventana de la aplicaci6n.

En la nueva presentacibn se repiten las columnas correspondientes a Status, Title y


URL. Las siguientes son las m& interesantes ahora, y ofrecen diferentes criterios para
valorar la pertinencia de 10s documentos recuperados. ReRn corresponde a Re-
ranking, y ofrece la valoraci6n obtenida por cada documento tras las acciones de
reordenacibn realizadas por el usuario, que hemos vista en el parrafo anterior.
Average ofrece la media calculada de todos 10s mktodos usados para analizar el
documento, por lo que se usa coma indicador general. mEBIR (Modified Extended
Boolean Information Retrieval), y es una combinaciSn de la bfisqueda booleana, el
modelo de espacio vectorial y el c~lculo de la frecuencia de terminos; dicho breve-
mente, combina el tratamiento bkico realizado por MataHari con el nlimero de veces
que aparecen 10s tkrminos en el documento. EBIR es la combinaci6n simple entre la
btisqueda booleana y el modelo de espacio vectorial. Boolean muestra la pertinencia
segtin el Algebra de Book. EBIR y Boolean ~610 son htiles cuando en la btisqueda se
combinan dos expresiones. VSM (Vector Space Model) utiliza un algoritmo
matem&ico especial para determinar la similaridad estadistica entre 10s documentos
recuperados entre si y respect0 a la expresi6n formulada (recuerde lo explicado en el
capitulo sobre recuperaci6n de informaci6n). Por liltimo, Links indica el nlimero de
enlaces encontrados en cada documento, por lo que puede usarlo coma indicador
complementario de tipo de documento (muchos enlaces pueden indicar una pagina de
tipo directorio, por ejemplo). Pulsando una vez sobre la cabecera de estas columnas
podra apreciar c6mo varia la pertinencia de 10s documentos segtin el mktodo
seleccionado.

Figura 8.49. AnCsisde Scores en MataHari

La siguiente pestaiia, con la leyenda Terms, nos sittia en la ventana de anAlisis de


tkrninos incluidos en 10s documentos. Estas funciones se utilizan para identifca~
palabras especificas dentro de las piginas. Por ejemplo, imagine que desea localizar,
entre todos 10s documentos, aquellos en 10s cuales aparezca el ttkmino &aliciax.En
primer lugar, mueva la barra de desplazamiento vertical de1 cuadro de la izquierda
hasta encontrar el tkmino. El nlimero situado a la derecha de1 mismo nos indica la
cantidad de veces que aparece en 10s documentos. Pulse sobre 61 para seleccionarlo.
Ahora, mueva el puntero hasta el primer bot6n situado a la irquierda, encima de este
ORA~MX c.wiTuLo 8: AGENTES DEBirSQUED.4 PAR.4 INTERNET 201

cuadro. Se muestra la leyenda Show pages by highlighted terms. Pulse sobre il.
Observe que la lista de resultados situada en el cuadro de la derecha cambia,
mostrando ~610 10s documentos que contienen el ttkmino, al tiempo que el indicador
Napages modifica su contenido.

Figura 8.50. Uso de t&minos para seleccionar documentos

Ahora, por ejemplo, desea estudiar 10s tkrninos que contiene la primera pigina de1
listado. Pulse sobre ella para seleccionarla, y ahora pulse sobre el b&n situado a la
derecha de1 usado anteriormente, que despliega la leyenda Show terms for highlighted
pages. Observe c6mo cambia el contenido de1 cuadro de la izquierda, mostrando 10s
t&minos incluidos en la pAgina en cuesti6n, al tiempo que v&a tambit% el indicador
Naterms. Como ha ido trabajando con estos cuadros, se han ido limitando las
opciones. Para volver a ver el listado de todos 10s tkminos, asi coma el listado de
todas 10s documentos, pulse sobre 10s botones situados a la derecha de 10s ya usados, y
que mostraran las leyendas Re-set pages listing to complete set y Re-set terms
listing to complete set. En cualquier case, debe observar c6mo tambikn puede
visualirar cualquier documento desde esta ventana, usando indistintamente 10s botones
Viewer o Browser.

La pestaiia Query and Engines da paso a un diGgo en el que puede visualizar 10s
resultados obtenidos de cada uno de 10s motores. Para ello, ~610 tiene que observar el
cuadro situado a la izquierda de la ventana, y marcar o desmarcar la casilla de
veriticaci6n existente a la izquierda de cada motor, para que 10s documentos obtenidos
de &te se muestren o no en el listado situado en el cuadro de la derecha. Observe que
conforme usa esta opci6n, el indicador No.pages v&a el ntimero ofrecido. Por
ejemplo, seleccione ~610 10s resultados ofrecidos por Google. Al igual que en la
ventana anterior, de cada uno de ellos se muestra el indice AverageScore de
pertinencia.

Figura 8.5 I, Resultados ofrecidos por Google

La pestaiia Rejected abre un diilogo en el que nos informa de 10s resultados


recharados por MataHari, asi coma del motive de ese recharo (duplicados, limite de
tamafio, tkrminos especiales excluidos, limite de tiempo de espera...). Por tiltimo, la
pestafia Statistics indicars la fecha de creak% de la base de datos actual, de so filtima
modificaci6n, de 10s documentos o paginas incluidos en la misma, para terminar
mostrando on resumen de 10s resultados totales, de 10s documentos aceptados y
rechazados, de 10s fallos y de 10s repetidos.

8.7.4. Otras opciones de MataHari

Lo m8s destacable de otras opciones no presentes directamente en la interfaz basica


de MataHari es la posibilidad de usar otros tipos de operadores para formular
expresiones de bhsqueda. Dispone de 10s operadores de posici6n relativa Near, Before
y After, asi coma de sus contraries (Not Near, Not Before, Not After). Near se usa
cuando se quiere que dos tkrminos aparezcan cercanos dentro de1 documento,
separados coma m&ximo por n t&minos, en cualquier orden. Before y After siguen el
mismo esquema, pero ambos determinan cuando uno de 10s t&minos debe aparecer
antes de otro (Before) o despu& de otro (After). SW negatives fuerzan exactamente
lo contrario, es decir, no cerca de, no antes de o no despu& de.

Otra opci6n de inter& es la posibilidad de exportar todos o parte de 10s resultados a


diferentes formatos. Est6 disponible mediante el men6 File, opci6n Export. Se
muestra un submenti con varias opciones. Export All Displayed HTML crea una
pagina web con todos 10s resultados anotados de la btisqueda. Export Selected
HTML crea una pagina web ~610 con 10s resultados seleccionados. Export All
Displayed Results crea un fichero cuyos contenidos se muestran ordenados y
separados por comas o comillas, y que pueden importarse desde cualquier procesador
de texto u hoja de c~lculo. Export Selected Results hate lo mismo, pero ~610 con 10s
documentos seleccionados. Por liltimo, Export All Displayed Terms crea un fichero
que contiene todos 10s thminos incluidos en todos 10s documentos. Coma puede
imaginar, este tipo de ficheros se usan para estudios cuantitativos posteriores.

Tambikn debe probar la opci6n Populate with HTML, situada en el menfi Search.
Dando a MataHari un document0 HTML local, es capaz de r&rear 10s enlaces (links)
contenidos en la misma, incluyendo aquellos que supongan una conexi6n a otra pagina
web en algiin lugar de Internet, asi coma crear una base de datos local con todos 410s.
Es ideal para construir bases de datos de documentos tomando coma punto de partida
directories y listados largos de enlaces tem&ticos. Por tiltimo, las ya cl&icas opciones
de configuraci6n se encuentran en el menli Options, opci6n Global Settings. Los
cuadros de dihlogo que aparecen permiten establecer filtros de aceptaci6n de
resultados, usando dominios de primer y Segundo nivel, en Site Filters. Tambien se
puede filtrar usando coma criteria 10s tamafios minimos y mziximos de la pigina, asi
coma la fecha de hltima actualizaci6n, en Page/Date Limit. Search Limits se usa para
limitar el tiempo total de descarga de pigina, el tamafio mBximo total, el nlimero de
respuestas por motor y el ntimero de reintento de cone&in a 10s motores de bfisqueda.
Connected establece el tiempo de espera de respuesta de la pigina, el tipo de
conexi6n (red o telefbnica) y la definici6n de1 proxy, si existe en su red. Para terminar,
Application fija el directorio en el que se almacenan 10s ficheros, asi coma la
ejecuci6n exacta de las expresiones booleanas y el nlimero mAxima de t&minos a
utilizar cuando se emplea el operador Near.
8.8. BOOKWHERE 2000 3.2.1

BookWhere 2000 es un agente bastante diferente a 10s que hemos estado revisando.
En primer lugar, no consulta motores de blisqueda en Internet: consulta bases de datos
de cat&logos de bibliotecas. Esto significa que cuando el usuario plantea una consulta,
debe pensar que ahora el agente si estB buscando una base de dates, que esa base de
datos tiene una estructura de campos, y que 10s documentos resultantes de una
consulta corresponden a registros de base de datos que representan a libros o a otros
material.% que pueden encontrarse en una biblioteca (no olvide que cada vez en mayor
medida las bibliotecas se convierten en mediatecas, lo cual quiere decir que puede
recuperar tambikn registros correspondientes a videos, CD-ROM, grabaciones
musicales, etc.). Las bibliotecas ofrecen el catilogo de sus fondos median@ lo que se
ha dado en llamar OPAC (Online Public Access Catalog, 6 Cat&logo Ptiblico de
Acceso en Linea). Para bien o para mal, no todos 10s sistemas de automatizaci6n de
bibliotecas, y sus correspondientes OPACs, son iguales, ya que existen en el mercado
diferentes productos. Coma puede imaginar, un agente coma BookWhere es capaz de
realizar consultas simult&neas a numerosos cat&logos, filtrando y presentando 10s
registros bibliograficos al usuario. Este tipo de agentes es de especial inter&s para
investigadores, universitarios y especialistas en informacibn y documentaci6n. entre
10s que cabe incluir a 10s bibliotecarios.

Esta capacidad de consulta a diferentes bases de dams en posible gracias a la


existencia, y utilizaci6n, de1 protocolo 239.50. Este protocolo, en principio norma
norteamericana NISO 239.50 (10s usuarios m8s antiguos de Internet deben recordar
que WAIS era posible gracias a Z39.50), y ahora norma international ISO-23950,
establece las condiciones y 10s protocolos necesarios para interrogar bases de datos
rem&as (no ~610 de bibliotecas), usando un servidor 239.50 y un cliente 239.50, en
una arquitectura cliente/servidor. Al usuario le darB igual cual es la estructura y
formato original de la base de datos: mientras exista un servidor 239.50 que acttie de
pasarela, podr6 consultarla, usando su cliente 239.50. Junta a este protocolo, debe
saber que las bases de dates de cat&logos de bibliotecas siguen una norma ISO-2709,
la correspondiente al format0 MARC (Machine-Readable Cataloging Data), que
establece la estnxtura de 10s registros bibliogrificos. Aunque existen variantes de1
MARC, tienen caracteres comunes, lo que facilita la interrogacibn mediante clientes
239.50.

BookWhere es un producto de SeaChange Corporation, una empress canadiense,


que puede encontrar en http://www.bookwhere.com, de donde puede obtener una
copia de evaluaci6n. En Espafia es un producto distribuido por Greendata
(http://www.greendata.es).

8.8.1. La interfaz de BookWhere

Una vez obtenido el fichero de instalacibn de BookWhere, basta con la doble


pulsacidn sobre el icono para poner en marcha la instalaci6n. fista no plantea mayores
0 RA~MA ctWruL0 8:AGENTES DE BljSQUEDA PAR.4 INTERNET 205

problemas que detinir director&, etc. Si estB trabajando en una red local, debera
preguntar al t&nico sobre la existencia en la misma de on servidor proxy, ya que
BookWhere necesita configurar este par&metro de forma particular. De otra forma, no
ser6 capaz de conectar con 10s servidores y ejecutar las consultas.

Figura 8.53. Interfaz de BookWhere

La interfaz que ofrece BookWhere es sencilla. Una vez puesra en marcha, aparece
una ventana que le pide que seleccione las bases de dates a utilizar. Para evitar
complicaciones en este momenta, pulse el bot6n Cancel. Observe ahora la interfaz de1
programa. En la parte superior de la ventana, aparece el menti de opciones, y una barra
de botones que ofrece acceso direct0 a las principales funciones. Juste debajo de &a,
y tras el icono de on globe terrAqueo, aparece una linea de estado que nos informara de
la consulta ejecutada. Inmediatamente debajo, la ventana de trabajo se divide en tres
paneles diferentes (cuya presentaci6n puede variarse, coma vercmos m8s adelante). El
superior mostrari el autor, titulo y fecha de publicaci6n de 10s registros de libros
recuperados. El panel inferior izquierdo nos darA un listado indicando 10s resultados
obtenidos en cada cat&logo consultado (bajo el indicador Host), asi coma 10s
descriptores que aparecen en 10s registros recuperados (bajo el indicador Subject
Heading). Tenga que cuenta que 10s descriptores actlian coma palabras clave que
reflejan el contenido informative de un documento, luego le serBn de suma utilidad
0 KA-MA CAPiTULO 8: ACENTES DE BilSQUEDA PAR.4 NERNET 205

problemas que definir directories, etc. Si estA trabajando en una red local, debera
preguntar al t6cnico sobre la existencia en la misma de un servidor proxy, ya que
BookWhere necesita configurar este par&netro de forma particular. De otra forma, no
ser& capaz de conectar con 10s servidores y ejecutar las consultas.

i., 111

Figura 8.53. Interfar de BookWhere

La interfaz que ofrece BookWhere es sencilla. Una vez puesta en marcha, aparece
una ventana que le pide que seleccione las bases de dams a utilizar. Para evitar
complicaciones en este momenta, pulse el bot6n Cancel. Observe ahora la interfaz de1
programa. En la parte superior de la ventana, aparece el menfi de opciones, y una barra
de botones que ofrece access direct0 a las principales funciones. Justo debajo de ksta,
y tras el icono de un globe terriqueo, aparece una linea de estado que nos informari de
la consulta ejecutada. Inmediatamente debajo, la ventana de trabajo se divide en tres
paneles diferentes (cuya presentacibn puede variarse, coma veremos m6s adelante). El
superior mostmA el autor, titulo y fecha de publicaci6n de 10s registros de libros
recuperados. El panel inferior izquierdo nos dari un listado indicando 10s resultados
obtenidos en cada cat&logo consultado (bajo el indicador Host), asi coma 10s
descriptores que aparecen en 10s registros recuperados (bajo el indicador Subject
Heading). Tenga que cuenta que 10s descriptores act&m coma palabras claw que
reflejan el contenido informative de un documenta, luego le seran de suma utilidad
para replantear las bhsquedas, o en el momenta de desarrollar consultas comple-
mentarias. Por hltimo, el panel inferior derecho nos mostrara 10s datos correspon-
dientes a 10s registros individuales cuando seleccionemos uno de ellos en el tiea
superior.

8.8.2. Proceso de consulta de bases de datos

La ejecuci6n de una consulta con BookWhere es sencilla, y consta de tres pasos


b8sicos: introducir el criteria de biisqueda, seleccionar las bases de datos y catalogos
donde buscar, y pulsar el bot6n de ejecucibn. Por ejemplo, vamos a desarrollar una
bfisqueda de obras de don Antonio Ubieto Arteta, insigne medievalista aragonis (y
padre de buenos amigos). En primer lugar, para acceder a la interfaz de consultas,
acudimos al menti Actions, opcidn Enter a Query (o bien podemos pulsar el bot6n de
la barra inferior cuyo icono es una dialog0 con el signo de interrogacihn). Se abre el
dialogo de formulaci6n de consulta. En el dialogo Simple, introduzca en el campo
Author la expresiSn tcubieto arteta,,. Observe que se podrian introducir tambidn datos
de titulo (Title), descriptores (Subject Headings), o buscar en cualquier campo
(Any), e incluso especificar un campo diferente, en el menh desplegable More search
fields... (pero para esto es necesario saber algo de MARC. .).

Figura 8.54. Consulta simple

Bastaria con pulsar el bot6n OK, y tendriamos completado el primer paso. Antes,
sin embargo, serB interesante que se observen las opciones que le ofrece el dialog0
Power. En efecto, el use de este diilogo, aunque parece similar al anterior, nos
permite usar expresiones booleanas en las consultas, usando 10s cl&icos operadores,
mediante un cuadro de dialog0 Search Field, en el que introducir las expresiones.
Observe, ademis, que este diilogo incorpora un bot6n Extra Attributes..., el cual
ofrece un nuevo diBlogo que permite definir con m& precisi6n la expresi6n de
0 R&MA cApiruL0 8:AGENTES DEBirSQUEDA PAR.4 INTERNET 207

consulta, mediante par&netros coma Relation (igual, mayor o igual.. .), Truncation
(tipo de truncamiento), Structure (si se trata de una fecha, un ario, on ntimero de
clasificaci6n.. .), Position (lugar de aparici6n de la expresi6n en el campo de que se
&ate), y Completeness (si la expresi6n corresponde a todo el contenido de1 campo o a
parte de 61). Pulse Cancel hasta volver a Power. Observe que en la parte inferior del
diBlogo se muestra la expresidn Author is <<ubieto arteta,, (no se preocupe por
maylisculas y / o mintisculas, mejor todo e n &tas, y y a s e encargxa d e todo
BookWhere). Pulse ahora el bot6n OK.

Figura 8.55. Consulta Power

Ahora debe completar el Segundo paso. Para ello, menti Actions, opciSn Choose
Databases... o bien pulse el bot6n situado inmediatamente a la derecha de1 anterior,
con el icono de un ordenador conectado a una red. Se muestra el diBlogo de selecci6n
de catSdogos donde buscar. El primer dialogo indica que existe una preseleccibn
Favourites (favorites, seis seleccionados por 10s creadores del producto), y el
conjunto de todos 10s disponibles, en All Databases. Observe que pulsando sobre la
cruz de la irquierda se despliegan o se recogen 10s servidores y bases de datos
disponibles. Observe que, coma le indica la parte inferior de1 d%logo, hay m8s
servidores (Host) que bases de datos (Databases). Como puede imaginar, esto se debe
a que en un mismo servidor pueden estar accesibles varias bases de dates. Hemos
desplegado en la figura siguiente AMICUS para que observe la diferencia entre el
icono de1 servidor y las bases de dates que contiene, y c6mo muchos de ellos muestran
men& de ayuda emergentes sobre so localizaci6n y contenidos. Para seleccionar 10s
que le interesen, basta con marcar sobre el cuadro de selecci6n situado a la izquierda
de cada uno de ellos, pudiendo seleccionar todo on servidor, o bien bases de datos
especificas.
Figura 8.56. Representaci6n de servidores y bases de dates disponibles

En esta primer blisqueda no conviene complicarse, asi que seleccione directamente


sobre la casilla de Favourites. Observe c6mo se activan todos 10s favorites y sus
bases de dams. Pulse OK, y note c6mo en la linea de &ado superior, tras el icono de1
globo terriqueo, se muestra la expresi6n y lx bases de dates a consultar Para iniciar
la blisqueda, puede ir al menii Actions, opci6n Search!, o bien pulsar el bot6n con el
icono de la lupa. El proceso de bdsqueda se pone en marcha. BookWhere inicia
conexiones simultBneas a 10s servidores, les envia la expresi6n, y espera la respuesta.
De todo el proceso puede seguir informado observando la linea de estado inferior.
Conforme comienzan a llegar resultados, 10s tres paneles de la ventana de trabajo
empiezan a mostrar resultados. Acabado el proceso, estudie 10s resultados. El panel
superior le muestra una entrada por cada registro recuperado. Observe que pulsando en
cada uno de ellos se muestra el registro complete, con todos 10s dates, en el panel
inferior derecho. En nuestro case, hemos pulsado sobre la Crrjnica de Alfonso 111. La
visualizaci6n de1 registro permite ver que se ha obtenido de1 cat&logo de la New York
University (esquina superior izquierda de1 panel), y pulsando sobre el indicador
p o d e m o s lanzar una conexi6n w e b directa a l a biblioteca. D e b e notar q u e
inteligentemente, BookWhere le ha marcado coma nuevos puntos de partida para &as
btisquedas el titulo, 10s descriptores y otros autores secundarios, y basta con situar el
cursor encima de 10s enlaces, pulsar una vez, y poner en marcha la blisqueda.

Ahora aproveche el panel inferior izquierdo. Pulsando sobre la casilla de seleccidn


situada a la irquierda de 10s servidores (Host), v&i ~610 10s registros obtenidos de
cada uno de ellos. Pulsando sobre la casilla de selecci6n situado a la izquierda de 10s
Subject Headings, vera ~610 aquellos ,cuyo registro contienen eve descriptor. Por
ejemplo, si le interesan las peregrinaciones medievales, pulse la casilla de Christian
pilgrims and pilgrimages, y ~610 se mostraran 10s registros que responden a ese
descriptor. Considerando el inter& que tiene BookWhere para 10s profesionales e
investigadores, es evidente que el corolario de1 proceso de b6squeda es crear una
bibliografia o afiadir 10s registros a una base de datos especializada. En primer lugar,
para guardar la blisqueda realirada y sus resultados, acuda al menli File, opciSn Save
AS..., y guarde la sesi6n con el nombre <subietola, por ejemplo. En cualquier
moment0 podr& recuperarla desde el menli File, opci6n Open..

im m. p,eu ii IWi

Figura 8.57. Presentaci6n y anilisis de resultados

Vamos a convertir 10s registros bibliograficos en un fichero manejable por bases de


dates, procesadores de texto o aplicaciones especializadas en bibliografia. Para ello, lo
primero que tiene que hater es seleccionar aquellos registros que desee exporter (ya
conoce las combinaciones de Windows: pulsar bot6n izquierdo y mayiisculas o
control). Ahora, acuda al menti Actions, opci6n File Export... o bien pulse el bot6n
cuyo icono es una hoja azul con una estrella en la esquina. Se muestra un cuadro de
dislogo donde podr& definir el directorio y el nombre de1 fichero de exportaci6n, y
seleccionar uno de 10s posibles formatos. Observe que 10s formatos, exceptuando Text
Format y Tabbed Text Format, son especificos para sistemas de gesti6n bibliogr%ica
personal, coma pueden ser Inmagic, Citation 7, Reference Manager, Procite o Refer.
En cualquier case, BookWhere se encarga he la transfonnaci6n. e incluso in&ye una
opci6n para formato MARC. Basta con seleccionar el formato deseado, y pulsar
Guardar.
Figura 8.58. DiSdogo de exportaci6n de registros

8.8.3. Otras opciones de BookWhere

El resto de opciones de BookWhere son similares a las de otras aplicaciones de este


tipo. El menfi File reline, junta a las ya sefialadas, las opciones New (empezar nueva
sesi6n de Bhsqueda), Print y Print Preview, para imprimir y visualizar el resultado
antes de ello, un submen con las acciones m& recientes (que suelen mostrar el
encabezado Recent...), y la conocida y necesaria Exit, para terminar la ejecuci6n de1
programa. El men6 Edit sirve para seleccionar registros individuales o grupos de
ellos. En Actions quedan por indicar las opciones Clear, que borra la sesi6n actual,
Delete Records, que borra registros no necesarios, y Sent To, que exporta 10s
registros directamente al format0 de Reference Manager. El men6 Options permite
variar la presentaci6n de 10s paneles de la ventana de trabajo, mediante las opciones
Show..., y la presencia de las barras de estado y de herramientas, mediante Status
Bar y Toolbar. MBs compleja resulta Settings, desde la cual se configuran numerosos
parametros de BookWhere, y que es necesario conocer. Para establecer algunos de
ellos es necesario conocer m8s detenidamente el format0 MARC y el funcionamiento
de1 protocolo 239.50, lo que no puede abordarse en estas lineas. General establece el
inicio de la sesi6n de trabajo. Communication fija el tiempo de espera para la
conexibn, el ntimero de conexiones simultineas, el mlmero maximos de registros
obtenidos de cada base de dates, etc. Fonts define 10s tipos de letra usados en la
interfaz de BookWhere. Directories controla 10s directories de trabajo. Rules permite
establecer criterios de selecci6n o eliminaci6n de campos de 10s registros MARC. En
239.50 Servers pueden afiadirse, modificarse o eliminarse servidores de bases de
datos y/o bases de dates, cambiando su direcci6n IP, sus descripcibn y 10s parametros
de acceso y consulta. Database Groups permite crear grupos de servidores y/o
bases de dates, segtin 10s intereses de1 usuario, que completen 10s Favourites con
otras agrupaciones. Sorting establece el criteria de ordenaci6n de 10s registros
obtenidos. MARC Display define 10s campos de 10s formatos MARC que van a ser
mostrados en cada case especial. Mediante Queries pueden cambiarse 10s botones de
asignaci6n de consultas a campos, que ofrecia la consulta de la opci6n Power. Por
hltimo, Proxy Server sirve para indicar a BookWhere la localizaci6n y la forma de
acceso a on servidor proxy dentro de so red local (recuerde que si usa un acceso
telefbnico desde so propio ordenador, no debe activar esta opci6n).

Figura 8.59. DiAlogo Settings, opciones de 239.50 Servers

8.9. BLACKWIDOW 4.07

Como en otras aplicaciones, no se rrata de on agente que r&ma todas las


caracteristicas deseables en 10s mismos, y que hemos explicados en paginas anteriores.
Tampoco se trata de una herramienta que sea capar de localirar y obtener documentos
originales. Sin embargo, se incluye en este libro porque su utilidad se encuentra fuera
de toda duda, y en m8s de una ocasi6n tendra que recurrir a so utili.zacSn, o a la de un
producto de caracteristicas similares.

BlackWidow es lo que se ha dado en llamar on *site ripper*, es decir, un


xdestripador de sitios web>>. Este tipo de aplicaciones toman coma punto de partida un
URL cualquiera (on servidor, un directorio o una pagina web), analizan la estructura
de directories, contenidos y enlaces existentes, y obtienen un mapa o una
representaci6n grBfica de la misma, llegando incluso a ser capaces de obtener y situar
en el disco duo de1 usuario una copia de 10s ficheros originales presentes en el
servidor. De esta forma, se podr6 desarrollar a posteriori una navegaci6n ofline, con el
consiguiente ahorro de tiempo y dinero.
Una aplicaci6n con estas prestaciones es especialmente interesante cuando el
usuario necesita obtener una copia de una estructura de informacibn (par ejemplo, un
manual en linea organizados en secciones y subsecciones). En lugar de ir visitando y
guardando en el disco duro local cada una de las partes, basta con dar el punto de
partida o portada, y el programa se encarga de seguir 10s enlaces y obtener copias las
paginas web, ficheros grificos, etc., que conforman el manual. Tambikn puede
identificar este tipo de programas bajo el epigrafe de Aoffline browsers@, o
navegadores fuera de linea, aunque debe tener en cuenta que no todos tienen las
misma prestaciones ni forma de “so.

8.9.1. Obtencih, instalacih y puesta en marcba de BlackWidow

Puede conseguir una copia limitada de evaluaci6n en la web de la empress


creadora, SoftByte Labs, http://www.sofbytelabs.com. Una vez terminado el proceso,
un doble clic sobre el icono lanza el programa de instalacibn, que sigue el esquema
habitual de petici6n de directories, etc. Es importe saber que para poder usar las
prestaciones de ofline browsing de BlackWidow es necesario tener instalado en su
ordenador Internet Explorer. Si no dispone de 61, la Gnica limitaci6n sera no poder usar
el navegador dentro de1 propio BlackWidow. Una vez acabado el proceso, ya dispone
e n e l m e n 6 P r o g r a m a s de1 submenh d e BlackWidow, c o n cuatro iconos,
correspondientes a BlackWidow (con navegador o sin kl), Ayuda y Proceso de
desinstalaci6n. Para empezar, utilice BlackWidow (no browser). Tras la ventana
recomendando el registro de pago de1 programa, &te est& dispuesto para comenzar a
exulorar la web coma usted le diga.

Figura 8.60. Menli de acceso a BlackWidow


0 RA~MA CAPiTULO 8: AGENTES DE BiisQUEDAPARA INTERNET 213

8.9.2. Interfaz de usuario de BlackWidow

Coma toda la mayoria de las aplicaciones diseiiadas para entornos graficos de


usuario, BlackWidow presenta una ventana de trabajo en la que se distinguen una
barra de mend, una barra de botones, y varies espacios de trabajo y presentaci6n de la
informaci6n.

Figura 8.61. Interfaz de usuario de BlackWidow

Revisemos primer0 la barra de men6. File, coma puede imaginar, nos da acceso a
las opciones necesarias para abrir (Load), unir (Merge) y guardar (Save) estructuras
de servidores web, ya existentes en nuestro ordenador (es decir, que previamente
hemos realizado el proceso de exploracSn), y la muy necesaria orden Exit. Debemos
insistir en que este menfi tiene sentido ~610 cuando ya hemos explorado alguna
estructura. El Segundo men6, Edit, in&ye las opciones de Copy y Paste, y las
necesarias para seleccionar o eliminar la selecci6n de ficheros especificos, con vistas a
efectuar una descarga (download) de 10s mismos. El menli Option incluye funciones
relacionadas con la exploraci6n y la descarga de ficheros, que seran explicadas m8s
adelante, y que pueden activarse directamente desde aqui. Settings se utiliza para fijar
una serie de par&netros para la explorac%n, y que tambikn se explicaran m&s adelante.
Por tiltimo, Help retine la ayuda y el manual de la aplicaci6n.

La barra de botones ofrece el mayor potential de BlackWidow. Open y Save,


coma es de imaginar, repiten las opciones de1 men6 File. Los botones Browser, Back
y Next se activan cuando se ejecuta BlackWidow con el navegador integrado. Logon
da acceso a un cuadro de dialog0 en que se pueden introducir el nombre de usuario y
la contraseiia, en el case de tener que explorar un servidor que 10 demande. Explore es
el bot6n migico: da paso al cuadro de di&logo en el que fijaremos 10s parAmetros de la
exploraci6n y/o descarga, e iniciara el proceso. Mark sirve para seleccionar ficheros.
D/L es el otro bot6n migico: inicia el proceso de descarga de 10s ficheros
seleccionados tras la exploraci6n. Links permite iniciar una exploraci6n tomando
coma punto de partida una pagina web en nuestro ordenador. Por tiltimo, Stop detiene
todos 10s procesos.

Inmediatamente debajo de la barra de botones, se encuentra el campo destinado al


Web Site URL. Es en este campo en el cual introduciremos el URL que deseemos
explorar, en su forma traditional (http://www.micasa.net/lo-que-sea). El resto de la
ventana de BlackWidow queda dividido en dos Areas de presentacibn. En la situada a
la izquierda iremos viendo la estructura de directories que estB siendo explorada, o ha
sido cargada ya coma resultado de una exploraci6n anterior, mientras en la situada a la
derecha podremos saber 10s ficheros existentes en cada uno de 10s directories, asi
coma su tipo, tamafio y fecha de hltima modificaci6n. Por Cltimo, en la parte inferior
de la ventana una linea de estado nos ir8 informando sobre el desarrollo de1 proceso de
exploraci6n, el directorio actual, el nlimero de carpetas y ficheros, etc.

8.9.3. Opciones de exploracih con BlackWidow

Vamos a desarrollar las opciones de un proceso de exploraci6n. Imagine que


deseamos explorar el sitio web de la editorial Ra-Ma. En primer lugar, introducimos la
direcci6n http://www.ra-ma.es en el campo Web Site URL. Seguidamente, pulsamos
el bot6n Explore. Inmediatamente se abre un cuadro de dialogo tihdado BlackWidow:
Explore Options, mediante el cual vamos a fijar 10s parametros de exploraci6n.
Todos 10s p&metros traen una breve explicaci6n, que vamos a seguir.

Figura 8.62. El dizilogo de Explore Options: Depths


En primer lugar, Depths nos pide que definamos la profundidad de la exploraci6n.
La profundidad de exploraci6n, es decir, el nfimero de niveles jertiquicos y de enlaces
que recorrerB BlackWidow, es de dos tipos. En primer lugar, Enter folder/directory
search depth (l-100), es el p&metro que define la profundidad de exploraci6n desde
el punto de partida dada. Un valor de 1 supone que ~610 se explorar& el directorio
donde se encuentre el URL introducido. Para una exploraci6n normal de un sitio web,
se introduce un valor entre 16 y 32. Lo normal suele ser usar 16, ya que es sumamente
dificil encontrar un sitio web con m8s de 10 o 12 niveles de organizaci6n jertiquica.
En Segundo lugar, Enter outside full search depth (l-999), se usa para indicar hasta
qui nivel explorarA enlaces a pBginas situadas fuera de1 servidor objeto de
exploraci6n. Es recomendable dejar el valor 1, y usar 2 si necesita alguna referencia o
imagen situada en un servidor externo. Usar valores mayores, aunque posible, no es
recomendable, ya que puede aumentar de forma excesiva el tiempo y el trabajo de
explora&n, adem& de introducir gran niimero de paginas web que probablemente no
interesen al usuario.

Filters nos va a permitir establecer, de forma especifica, si queremos excluir o


incluir determinadas carpetas o enlaces a otros sitios web. Por ejemplo, si dese&emos
excluir de la exploraci6n 10s directories cgi-bin y pardillo, en el campo Exclude
introducin’amos la expresi6n /cgi-bin;/pardillo. La opci6n Include cumple la funci6n
contraria, sirve para indicar explicitamente qu& se quiere incluir, y tambikn puede
introducir una expresi6n con director& y/o sitios, siempre y cuando 10s separe con
punto y coma, sin dejar espacios, coma en el campo anterior.

Specs es el diilogo usado para establecer 10s tipos de ficheros a explorar, asi coma
10s limites de tamaiio de 10s mismos. En principio, aparece marcada la opci6n Scan all
filetypes, lo que supone que se explorar&n todos 10s ficheros. Si desea restringir a
ciertos tipos, coma HTML o JPG, desmarque la opcihn, e introduzca en el campo las
terminaciones de ficheros, separadas por punto y coma. Las opciones File sizes sirve
para fijar una tamaiio maxima y minima de ficheros a explorar, y puede ser 6ti1, por
ejemplo, cuando se desee excluir ficheros graficos de gran tamafio.

Por filtimo, Options es la m8s interesante. En este dialogo va a definir las


caracterfsticas de la exploraci6n y/o descarga de 10s ficheros. Quick Directory Scan
se usa para obtener listados de 10s contenidos de 10s director&, y construye la
estructura de la web mediante &tos, en lugar de hacerlo mediante la exploraci6n de
enlaces. Defeat Direct Linking Prevention se usa en lugares en 10s que 10s
administradores no permiten el enlace directo (para evitar sobrecargas de red, etc),
para eliminar esta limitacibn. Off-line Browsing Scan es la opci6n para seguir 10s
enlaces detectados, mAs que para buscar nuevos. Si luego quiere obtener una copia de
todo el sitio web, desactive esta opci6n; si le interesa ~610 el punto de partida y 10s
enlaces incluidos, activela. Stay Within Full URL obliga a BlackWidow a mantener
la exploraci6n dentro de1 URL establecido (par ejemplo, usando un directorio), y
obviando el resto de1 sitio web. Disable Deep Link Search sirve para eliminar la
exploraci6n de enlaces basados en Java u otros lenguajes, o en nuevas etiquetas
HTML. Force Compatibility Mode se usa en case de problemas para explorar un
sitio, y cambia el mode de exploraci6n. Si tiene problemas, y no logra desarrollar la
exoloraci6n de un sitio web, active esta opci6n. Aunque el funcionamiento serh m&s

Dados 10s p&metros, ya puede asignar un nombre a la exploraci6n (Default page


name for this URL), y pulsar el bot6n Explore. En el siguiente apartado vamos a
desarrollar un proceso de exploraci6n y descarga de on sitio web.

8.9.4. La exploracih con BlackWidow

Ahora vamos a desarrollar la exploraci6n de1 sitio web de Ra-Ma. En el campo


Web Site URL introduca el URL www.ra-ma.es, y pulse el bot6n Explore. Se abre el
cuadro de dialogo vista anterionnente. En Depths, fijamos Enter folder/directory
search depth a 16; dejamos Filters y Specs sin modificar, y pasamos a Options. Aqui
marcamos las opciones Stay Within Full URL y Disable Deep Link Search
(recuerde que en case de problemas o errores, activando tambikn las opciones Defeat
Direct Linking Prevention y Force Compatibility Mode es dificil que ninghn sitio
web se resista). Asigne un nombre para la Default page, y pulse el bot6n Explore.

Se abre entonces una nueva ventana de di&logo, Download Folder, en la que es


necesario fijar dos cuestiones: En primer luger, el directorio dentro de1 cual va a
almacenar 10s ficheros resultantes de la exploraci6n. Le recomiendo haber creado con
antelaci6n un directorio <<webs>>, o similar. Si selecciona t%te para la descarga,
CAPiTULO 8: AGENTES DE BilSQUEDA PARA INTERNET 217

autondticamente BlackWidow crear5 on subdirectorio dentro de1 mismo, cuyo


nombre sex& la URL que vaya a explorar. Si ~610 desea hater una explorac%n, deje las
opciones Do not keep retrieved files y Download wanted files while scanning sin
marcar. Si desea que al mismo tiempo que se explora, se proceda a descargar una
copia de todos 10s ficheros, marque ambas opciones. En cualquier case, debe recordar
que es posible desarrollar on proceso de descarga a posteriori, una vez realizada la
exploracibn. La opci6n Require browser logon ~610 serzl necesaria si se trata de on
sitio web con acceso restringido. Tras la tercera pulsaci6n de1 bot6n Explore,
comenzari la exploraci6n. Ahora podra observar el progreso de la exploraci6n con 10s
cambios que tengan lugar en las ventanas de trabajo, donde progresivamente
comienzan a aparecer la estructora de directories y 10s ficheros que contienen 10s
mismos. Como el proceso se desarrolla de forma independiente, dejelo en Segundo
piano y haga algo m&s provechoso,.hasta que termine. Mientras vea el reloj de1 cursor,
el proceso est& active. Una vez terminado el proceso de exploraci6n, no olvide guar-
dar el fichero con la estructura obtenida, mediante el bot6n Save de la barra de
botones, o la opci6n Save Web As... de1 mend File. No olvide este paso, ya que en
case contrario perderemos la exploracibn realizada. Tras esto ya tenemos on fichero
almacenado con la estructura obtenida. Pulsando en las paginas y en 10s directories
podriamos realizer ya una navegaci6n (botdn Browser de la barra), pero esta seria en
linea, no en diferido

Figura 8.64. Selecci6n de las Opciones de Exploraci6n


Figura 8.65. La exploraci6n en progreso

8.9.5. La descarga con BlackWidow

Una vez estudiada la estructura obtenida, le interesa disponer en su ordenador de


una copia del sitio web de Ra-Ma, para estudiar detenidamente 10s titulos disponibles,
10s indices, etc. Consecuentemente, le interesa desarrollar una descarga o download.
En este case, le interesa disponer de una copia de1 listado de titulos referidos a Maple
y a Mathematics. Pasemos al tiea de trabajo. Pulse en 10s directories de la ventana
izquierda. Automiticamente, en la ventana derecha se muestra el contenido de 10s
mismos (nombre, tamaiio, fecha y tipo de fichero), ordenado alfab&icamente. Pulse en
el directorio awww.ra-ma.ew (ventana izquierda). Para definir lo que queremos, pulse
el bot6n Mark en la barra. El cuadro de dialogo que aparece nos permite fijar si
queremos todos 10s ficheros (All Files), o ~610 10s HTML, grticos, o combinaciones.
Incluso podemos definir nuestra propia selecci6n en Wilcards select. En la parte
derecha de1 mismo cuadro, puede defmir si desea que la descarga se realice de todos
10s directories (In All Folders), o desde el que se encuentra seleccionado (This
Folder Only). Active esta liltima opci6n y pulse OK. Observe que 10s ficheros
seleccionados se resaltan en un tono gris.
0 R&MA CAPiTULO 8: AGENT3 DE BirSQUEDA PARA INTERNET 219

Figura 8.66. Definici6n de ficheros a descargar

Ahora, pulse el bot6n D/L+ en la harm Se abre un nuevo cuadro de ditiogo en el


que definimos el destino de la descarga. En la izquierda aparece la estructura de
directories local. En la derecha se nos ofrecen w&s opciones. Coma podemos tener
ficheros seleccionados de varies directories, nos ofrece la posibilidad de indicar si
queremos todos (Selected files from all folders), o ~610 10s de1 directorio active
(Only files from the current folder). Si el servidor pidiese identificaci6n de usuario,
marctiamos Require browser logon first. Lo que si es de suma importancia es que
si tenemos previsto hater navegaci6n off-line, marquemos la opci6n Convert Links
for Off-line Browsing, que realizar~ 10s cambios necesarios para que esto sea posible,
sin problemas de pirdidas de enlaces. Pulse OK. Inmediatamente apareceri la ventana
de progreso de descarga, que nos informarh de1 proceso de1 mismo.

Figura 8.67. Ventana de proceso de descarga

En cualquier moment0 pude pulsar 10s botones Suspend y Cancel. El primer0 de


ellos suspende el proceso, hasta que se vuelve a pulsar Resume. Cancel termina el
proceso xpor fuerza bmta>>. Debe tener en cuenta que Suspend ~610 mantiene
220 RECUPERACl6N DE LA lNFORMACI6N EN INTERNET 0 RA-MA

el proceso en la sesi6n activa. Si sale de BlackWidow y vuelve a entrar, ya no existe la


posibilidad de reanudar el proceso, sino que deberia repetirlo de nuevo pm complete.

Pam navegar fuera de lima, lo finico que time que hater ahora es abrir su Netscape
o Explorer, ir al directorio en el que ha almacenado 10s ficheros, y buscar el indice
(normalmente index.htm o indexhtml). Tambikn p u e d e h a c e r l o activando
BlackWidow (with browser) desde el menti de Windows 95/98, y usando la opci6n
Off-line Browser de1 menh File, tras abrir el fichero de estructura. Funciona ripido y
bien. Con BlackWidow puede unir estfucturas de web, o partes de ellas, seglin sus
intereses, desarrollar descargas m8s selectivas, fijar filtros... pero ya lo dejamos a su
propia investigacibn.
BIBLIOGRAFiA

ACKERMANN, E. y HARTMAN, K., The Information Specialist’s Guide to


Searching and Researching on the Internet and the World Wide Web, Wilsonville,
ABF Content, 1999.

AEDO, I., CATENAZZI, N. y DiAZ, P., xGeneraciones de sistemas hipermediales>),


Nowftica, 124, noviembre-diciembre 1996, pp. 65-68.

AGUILLO, I., <<Herramientas de segunda generacihm>. Anuario SOCADI. Barcelona.


SOCADI, 1998, pp. 85-l 12.

-: &earching the Web>>, Cybermetrics, 1999, disponible en


http://www.cindoc.csic.es/cybermetrics/links08.html

-: <<Del multibuscador al metabuscador: 10s agentes trazadores en Intemetu, IV


Congreso ISKO Esparia, 1999, Granada, pp. 239-245.

BAEZ YATES, R. y RIBEIRO NETO, B., Modern Information Retrieval, Nueva


York, ACM Press/Addison Wesley, 1999.

BAEZA YATES, R., <<Desenredando la madejal,, Novdtica, mayo-junio 2000,


pp. 12-71.

BELKIN, N. J. et al., <<User interfaces for information systems>, Revista


Espmiola de Documentacidn Cientfica, 14, 2, 1991, pp. 193-213.

BENITO AMAT, C., nRecuperaci6n en Internet: cuatro modelos complementarios y


una agenda para su integraci&w, Boletin de Rediris, n.’ 48, 1998, pp. 36-S I.
BERGHEL, H., &yberspace 2000: Dealing with Information Overloadu,
Communications of the ACM, 40, 2, 1997, pp.
19-24.

BERRY. M. W. y BROWNE, M., Understanding Search Engines: Mathematical


Modeling and Tent Retrieval. Society for Industrial & Applied Mathematics, 1999.

BLAIR, D. C., Language and Representation in Information Retrieval, Amsterdam.


Elsevier, 1990.

BRADSHAW, J., <<iAn Introduction to Software Agentesx, En Bradshaw, J. (ed.)


Software Agents, AAAI Press / MIT Press, 1997, pp. 4-7.
BRUCE, H., <<User Satisfaction with Information Seeking on the Internetx, Journal of
the American Society for Information Science, n.’ 49, 6, 1998, pp. 541-556.

CHEN, H. et al., <<Internet Browsing and Searching: User Evaluations of Category


Map and Concept Space Techniques 11, Journal of the American Society for the
Information Science, n.O 49, 7, 1998, pp. 582.603.

CHEONG, F. C., Internet Agentes: spiders, wanderers, brokers and hots, New Riders.
1996.

CHORAFAS, D. N, Intelligent Multimedia Databases, Englewood Cliffs, Prentice


Hall, 1994.

CODINA, L., <<C&no descubrir informaci6n en Internet y c&no conseguir que nos
descubran a nosotrow, Net ConexGn, n.O 13, 1996, pp. 52-67.

CONKLIN, J., (<Hypertext: An Introduction and Survey>>, IEEE Computer, 1987.


pp. 17-41.

CORT!%, U. et al., *Agentes en la red>>, Novdtica, n.’ 124, 1996, pp. 50-53

CROFT, W. B., ((What Do People Want from Information Retrieval?>>, D-Lib


Magazine, noviembre 1995, disponible en htto://www.dlib.or~/dlib/november95/
1 lcroft.html

DESCHATELETS, G., <<The Three Languages Theory in Information Retrieval>>,


International Classification, n.’ 13, 3, 1986, pp. 126.132

DiAZ, P., CATENAZZI, N. y AEDO, I., De la multimedia a la hipermedia, Madrid,


Ra-Ma, 1996.

EISENBERG, M. B. y BERKOWITZ., R. E., Information Problem-Solving: The


Big6TM Skills Approach to Library & Information Skills Instruction, Stamford,
Ablex, 1990.
0 RA MA BlBLlOGRAFiA 2 2 3

EITO BRUN, R., xUna nueva forma de recuperar informacibn: 10s robots personales~,
Information World en Espuiiol, n.” 46, 1996, pp. 15.19.

ELLIS, D. A., Progress and problems in information retrieval, Londres, Library


Association Pub., 1996.

FRANKLIN, S. y GRAESSER, A., uIs it an Agent, o just a Program?: A Taxonomy


for Autonomus Agents,, Third International Workshop on Agent Theories,
Architectures and Languages, Springer-Verlag, 1996, disponible en
http://www.msci.memphis.edu/-franklin/AgentProg,html

FRANTS, V. I., SHAPIRO, J. y VOISKUNSKII, V. G., Automated Information


Retrieval. Theor?, and Methods, San Diego, Academic Press, 1997.

GARCiA, F. J. y TRAMULLAS SAZ, J., World Wide Web: fundamentos, navegacidn


y lenaguajes de la red mundial de informacidn, Madrid, Ra-Ma, 1996.

GENESERETH, M. R. y KETCHPEL, S. P., <<Software Agents,, Communications of


the ACM, n.‘37,7, 1994, pp. 48.53.

GIL LEIVA, I., La automatizacidn de la indizacidn de documentos, Gij6n, TREA,


1999.

GILSTER, P., Finding It on the Internet. The Internet’s Navigator Guide to Search
Tools and Techniques, Nueva York, John Wiley, 1996.

GLOSSBRENNER, A. y GLOSSBRENNER, E., S earth Engines for the World Wide


Web: Visual Quickstart Guide, PeachPitt Press, 1997.

GOULD, C., Searching Smart on the World Wide Web: Tools and Techniques for
Getting Quality Results, Library Solutions, 1998.

GREEN, S. et al., Sofrwnre Agents: A Review, 1997, disponible en http://www.cs.


tcd.ie/research groups/aig/iag/pubreview/chapl/chapl.html

GUDIVADA, V. N. et al, <<Information Retrieval on the World Wide Web>>, IEEE


Internet Computing, septiembre-octubre 1997, disponible en http://computer.orgl
internet/

HARTER, S. P. y HERT, CA., <<Evaluation of information retrieval systems:


approaches, issues and methods>>, Annual Review of Information Science and
Technology, n.’ 32, 1997, pp. 3.94.

HAVERKAMP, D. S. y GAUCH, S. aIntelligent Information Agents: Review and


Challenges for Distributed Information Sources,, Journal of the American Society
for the Znformation Science, n.‘49, 4, 1998, pp. 304.311.
HERMANS, B., <<Intelligent Software Agents on the Internet: an inventory of
currently offered functionality in the information society & a prediction of (nearly)
future developments>, First Monday, 1995, disponible en http://www.fisrtmonday.
dWissues/issue2_3/ch-123/index,html

HIPOLA, P. y VARGAS-QUESADA, B., c<Agentes inteligentes>, IWE El profesional


de la infirmaci6n, n.” 8,4, 1998, pp. 13-21.

-: y MONTES, A., <<A Descripci6n y evaluacidn de agentes multibuscadores>>, El


profesional de la informacidn, n.O 8, 11, 1999, pp. 15-26.

HJORLAND, B., Information seeking and subject representation, Londres,


Greenwood Press, 1997.

HOCK, R. E., The Extreme Searcher’s Guide to Web Search Engmes, Medford,
CyberAge Books, 1999.

INGWERSEN, P., Information Retrieval Interaction, London, Taylor Graham, 1992.

JENNINGS, N. R. y WOOLRIDGE, M. J, <<Applications of Intelligent Agents,,, En


Jennings, N. R. y Woolridge, M. J. (eds.) Agent Technology Foundations,
Applications and Markets, Springer-Verlag. 1998.

JULIAN, V. y BOTTI, V., CcAgentes inteligentes: el siguiente paso en la Inteligencia


Artificial>>, Novdtica, mayo-junio 2000, pp. 95-99.

KORFHAGE, R. R., Information Storage and Retrieval, Nueva York, John Wiley,
1997.

KOSTER, M., Simultaneous search engines. 1995. Disponible en http://www.


nexor.com/public/cusi/doc/simultaneous.html

KOWALSKI, G., Information Retrieval Systems, Theory and Implementation, Boston,


Kluwer, 1997

LANDOW, G. P., Hipertexto. La convergencia de la teoria critica comtempordnea ?


la rem&&, Barcelona, Paid& 1995.

LAWRENCE, S. R. y GILES, C. L., aAccesibility and Distribution of Information On


the Web>>, Nature, n.a 400, 1999, pp. 107-109, disponible en http://www.
wwwmetrics.com

-: <<Searching the World Wide Web n, Science, n.’ 280, 1998, pp. 98-100.
0 W-MA mBLtooR.4Fi.4 223

EITO BRUN, R., <sUna nueva forma de recuperar informaci6n: 10s robots personales~>,
Information World en Espmiol, n.’ 46, 1996, pp. 15-19.

ELLIS, D. A., Progress and problems in information retrieval, Londres, Library


Association Pub., 1996.

FRANKLIN, S. y GRAESSER, A., <<Is it an Agent, o just a Program?: A Taxonomy


for Autonomus Agents>>, Third International Workshop on Agent Theories,
Architectures and Languages, Springer-Verlag, 1996, disponible en
http://www.msci.memphis.edu/-franklin/AgentProg.html

FRANTS, V. I., SHAPIRO, J. y VOISKUNSKII, V. G., Automnted Information


Retrieval. Theory and Methods, San Diego, Academic Press, 1997.

GARCiA, F. J. y TRAMULLAS SAZ, J., World Wide Web: fundamentos, navegucidn


y lenaguajes de la red mundial de informacidn, Madrid, Ra-Ma, 1996.

GENESERETH, M. R. y KETCHPEL, S. P., <<Software Agents>, Communications of


the ACM, II.’ 37,7, 1994, pp. 48-53.

GIL LEIVA, I., La automatizacidn de la indizacidn de documentos, Gij6n, TREA,


1999.

GILSTER, P., Finding It on the Internet. The Internet’s Navigator Guide to Search
Tools and Techniques, Nueva York, John Wiley, 1996.

GLOSSBRENNER, A. y GLOSSBRENNER, E., Search Engines for the World Wide


Web: Visual Quickstart Guide, PeachPitt Press, 1997.

GOULD, C., Searching Smart on the World Wide Web: Tools and Techniques for
Getting Quality Results, Library Solutions, 1998.

GREEN, S. et al., Sofhvare Agents: A Review, 1997, disponible en http://www.cs.


tcd.ie/research groups/aig/iag/pubreview/chapl/chapl .html

GUDIVADA, V. N. et al, <<Information Retrieval on the World Wide Web>>, IEEE


Internet Computing, septiembre-octubre 1997, disponible en http:llcomputer.org/
intemet/

HARTER, S. P. y HERT, CA., aEvaluation of information retrieval systems:


approaches, issues and methods>>, Annual Review of Information Science and
Technology, n.’ 32, 1997, pp. 3.94.

HAVERKAMP, D. S. y GAUCH, S. <<Intelligent Information Agents: Review and


Challenges for Distributed Information Sources>, Jourml of the American Society
for the Znformntion Science, n.’ 49,4, 1998, pp. 304.3 11.
HERMANS, B., &telligent Software Agents on the Internet: an inventory of
currently offered functionality in the information society & a prediction of (nearly)
future developments>>, First Monday, 1995, disponible en http://www.fisrtmonday.
dk/issues/issue2-3/&123/index,html

HIPOLA, P. y VARGAS-QUESADA, B., (CAgentes inteligentew, ZWE El profesional


de la informacidn, n.” 8,4, 1998, pp. 13.21.

-: y MONTES, A., <<A Descripcibn y evaluacidn de agentes multibuscadores,,, El


profesional de la irzformaci6n, n.” 8, 11, 1999, pp. 15-26.

HJDRLAND, B., Information seeking and subject representation, Londres,


Greenwood Press, 1997.

HOCK, R. E., The Extreme Searcher’s Guide to Web Search Engmes, Medford,
CyberAge Books, 1999.

INGWERSEN, P., Informarion Retrieval Interaction, London, Taylor Graham, 1992.

JENNINGS, N. R. y WOOLRIDGE, M. J, <<Applications of Intelligent Agents>>, En


Jennings, N. R. y Woolridge, M. J. (eds.) Agent Technology Foundations,
Applicarions and Markets, Springer-Verlag, 1998.

JULIAN, V. y BOTTI, V., aAgentes inteligentes: el siguiente paso en la Inteligencia


Artificial>>, Nov&ca, mayo-junio 2000, pp. 95-99.

KORPHAGE, R. R., Information Storage and Retrieval, Nueva York, John Wiley,
1997.

KOSTER, M., Simultaneous seurch engines. 1995. Disponible en http:llwww.


nexor.com/public/cusi/doc/simultaneous.html

KOWALSKI, G., Information Retrieval Systems, Theory and Implementation, Boston,


Kluwer, 1997.

LANDOW, G. P., Hipertexro. La convergencia de la teoria critica comtemporanea y


la tecnologia, Barcelona, Paidbs, 1995.

LAWRENCE, S. R. y GILES, C. L., <<Accesibility and Distribution of Information on


the Web>>, Nature, n.a 400, 1999, pp. 107.109, disponible en http://www.
wwwmetrics.com

-: (<Searching the World Wide Web n, Science, n.’ 280, 1998, pp. 98-100
0 RA~MA smuoGaaFiA 225

LOPEZ ALONSO, M.A. y MARES MARiN, J., <<La organizaci6n de1 conocimiento
contenido en la informacid” hipertextual de Internet>>, 6”“. Jornndas Espafiolas de
Documentaci6n Automntizada, Valencia, 1998, pp. 489-493.

MALDONADO, A. y FERNANDEZ, E., <<Anzilisis comparative de buscadores en


1nternet.u Elprofesional de la infomacidn, n.’ 9, 3, 2000, pp. 40.46.

-: aEvaluaci6n de 10s principales buscadores desde un punto de vista documental:


recogida, ar&sis y recuperaci6n de recursos de informaci&w, 6”‘. Jornadas
Espaiiolas de Documentacidn Automntizada, Valencia, 1998, pp. 529-551.

MANAS, J. A., <<Blisqueda y recuperaci6n de la informaci6n en Intemetx, Novdtica,


julio-agosto, 1994, disponible en http://www.ati.es/PUBLICACIONES/
novatica/l994/jul-ago/manas.html

MARCOS MORA, M”. C., CcMotores de recuperaci6n de informaci6n: un analisis


comparative (parte l)>>, IWE El Profesional de la InformacGn, n.” 7, 1-2, 1998,
pp. 18-22.

-: <<Motores de recuperaci6n de informacibn: un analisis comparative (parte II)n, IWE


Elprofesional de la informacGn, n.’ 7, 3, 1998, pp. 13.20.

MARTiNEZ MlkNDEZ, F. J., Sistemas de Almacenamiento y Recuperaci6n de la


Znformaci6n. Universidad de Murcia. 2000. disponible en http://www.um.es/
-gtiweb/fjmm/sari.htm

MEADOW, C. T., Text Information Retrieval Systems, San Diego, Academic Press,
1992.

MONTE& A., CcPosibilidades de consulta de 10s buscadorew, IWE El profesional de


la infomacidn, n.O 8, 3, 1999, pp. 8-14.

NIELSEN, J. Hypertext and Hypermedia, Nueva York:,Academic Press, 1990.

NOTESS, G. R. <<Toward more comprehensive Web searching: single searching


versus megaserchingn, Online, 22, 2, 1998, p. 73-76.

-: <<Measuring the size of Internet databases>, Database, n.O 20, 5, 1997, pp. 69.
72.

-: <<Searching the World Wide Web: Lycos, Webcrawler and more>>. Online. n.’
19, 4, 1995, pp. 48-53.

NWANA, H. S., uSoftware Agents: An Overview>>, Knowledge Engineering Review,


n.’ 11,3, 1996, pp. 205-244.
226 RECUPERACI~N DE LA lNFORMACl6N EN lNTERNET ORA-MA

OLVERA LOBO, M”. D., nEvaluaci6n de sistemas de recuperaci6n de informaci6n:


aproximaciones y nuevas tendencias*, El profesional de la informacidn, II.’ 8, 11,
1999, pp. 4-14.

-: <<Rendimiento de 10s sistemas de recuperaci6n de informacid” en la World Wide


Web: revisidn metodol6gica>>, Rev&a Espafiola de Documentacidn Cient$ica, n.’
23, 1,2OOO, pp. 63-77.

PAUL, N. y WILLIAMS, M., Great Scouts!: Cyberguides for Subject Searching on


the Web, CyberAge Books, 1999.

POLLOCK, A. y HOCKLEY, A., <<What’s Wrong with Internet Searching,,, D-Lib


Magazine, matzo, 1997, disponible en httu://www.dlib.ore/dlib/march97/bt/
03uollock.html
REDERO, A. L., <<Buscadores de revistas electrbnicas>>, rWE El profesional de la
infomacidn, n.’ 7,4, 1998, pp. 3-6.

RIJSBERGEN, K. V., Znformation Retrieval, London, Butterworths, 1979. Disponible


en httu://dcs.glasnow.ac.uWKeith/Preface.html

RODRIGUEZ DE LAS HERAS, A., Navegarpor la informacidn, Madrid, Fundesco,


1991.

SALTON, G., Automatic Text Processing: the Transformation, Analysis, and


Retrieval of Information by Computer, Reading, Addison-Wesley, 1989.

SALVADOR OLIVAN, .I. A. y ANGUS ULLATE, J. M., Ttknicas de recuperaci6n


de infomacidn: aplicacidn con Dialog, Gij6n, TREA, 2000.

SEBASTIA SALAT, M., <<Reflexiones en torno al software de gesti6n y el acceso a la


informaci6n: Aspectos fundamentales d e l a teorfa d e l a recuperaci6n d e l a
informacibn e n l a Internet>>, I V Congreso IX0 EspaAa, G r a n a d a , 1 9 9 9 ,
pp. 261.267.

SENSO, J. A., aHerramientas para realizar btisquedas en Internet: una revisi6nu, El


Profesional de la Informaci6n, n.’ 7, 1-2, 1988, pp. 24-25.

SONNENREICH, W. y MACINTA, T., WebDeveloper@ Guide to Search Engines,


John Wiley & Sons, 1998.

SPARCK JONES, K. y WILLET, P. (eds.). Readings in Information Retrieval, San


Francisco, Morgan Kaufman”, 1997.

SULLIVAN, D. Search Engine Watch, 2000, disponible en http://


searchenginewatch.com/
0 RA-MA mLIom.wi.4 227

TRAMULLAS SAZ, J. (ed.), Tendencins de investigacidn en Documentacidn,


Zaragoza, Universidad de Zaragoza, 1995.

-: <<Recuperaci6n d e informaci6n e n e l W o r l d W i d e W e b : planteamiento,


herramientas y perspectivaw. Anuario de SOCADZ. SOCADI: Barcelona. 1997, pp.
137.145.

-: lntroduccidn a la Documdtica, I: Teoria, Zaragoza, Kronos, 1997

-: xAgentes y ontologias para el tratamiento de la informacibn: clasificaci6n y


recuperaci6n en Internet>>, IV Congreso ZSKO-Espaiia. Granada: ISKO, 1999, pp.
247-252.

WANT, R. S. (ed.), How to Search the Web: A Quick-Reference Guide to Finding


Things on the World Wide Web, Want Publishing, 1999.

WITTEN, I. H., MOFFAT, A. y BELL, T. C., Managing Gigabytes: Compressing and


Indexing Documents and Images, Morgan Kaufman% 1999.

WOOLRIDGE, M. y JENNINGS, N. R., <(Intelligent Agents: Theory and Practice)),


Knowledge Engineering Review, II.’ 10,2, 1995, pp. 115-152.
0 K&MA BIBLIOGRAFiA 227

TRAMULLAS SAZ, J. (ed.), Tendencias de investigacidn en Documentacidn,


Zaragoza, Universidad de Zaragoza, 1995.

-: <<Recuperaci6n de informaci6n en el World Wide Web: planteamiento,


herramientas y perspectivaw, Anuario de SOCADI. SOCADI: Barcelona. 1997, pp.
137.145.

-: Introduccidn a la Documdtica, 1: Teoria, Zaragoza, Kronos, 1997.

-: aAgentes y ontologfas para el tratamiento de la informaci6n: clasificaci6n y


recuperaci6n en Internetn, IV Congreso ZSKO-Espaiia. Granada: ISKO, 1999, pp.
247.252.

WANT, R. S. (ed.), How to Search the Web: A Quick-Reference Guide to Finding


Things on the World Wide Web, Want Publishing, 1999.

WITTEN, I. H., MOPFAT, A. y BELL, T. C., Managing Gigabytes: Compressing and


Indexing Documents and Images, Morgan Kaufmann, 1999.

WOOLRIDGE, M. y JENNINGS, N. R., <<Intelligent Agents: Theory and Practice>>,


Knowledge Engineering Review, n.’ 10, 2, 1995, pp. 115-152.
iNDICE ALFABfiTICO
230 RECUPERAClhN DE LA lNFORMACI6N EN lNTERNET 0 R&MA

~etabuacadorei 98s; 13&a


Mc,acrawler 134: 138
iNDICE ALFAB6TICO 23,

También podría gustarte