Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tabla de contenido
Introduccin
1. Mecanismos de bsqueda en la web
Buscadores
Metabuscadores
Directorios
Guas
Tutoriales
Software especializado
2. Estrategias de bsqueda en la web
Estrategias generales
Seleccin de herramientas
Objetivo de la bsqueda
Forma de bsqueda
Especializacin de la bsqueda
Precisin de la bsqueda
Mucha informacin recuperada
Seleccin de recursos
Poca informacin recuperada
3. Caracterizacin de la web invisible o profunda
La web opaca
La web privada
La web propietaria
La web realmente invisible
4. Herramientas de bsqueda en la web profunda
Buscadores
Metabuscadores
Directorios
Guas
Tutoriales
Motores avanzados
5. Estrategias de bsqueda en la web profunda
Informacin especializada
Bsquedas avanzadas
Evaluacin de la informacin
Informacin en bases de datos
6. Compilacin de recursos de bsqueda en la web profunda
La web opaca
La web privada
La web propietaria
La web realmente invisible
8. Bibliografa
Introduccin
El trmino web invisible fue utilizado por primera vez por la Dra. Jill Ellsworth para
denominar la informacin que resultaba invisible para las maquinarias de bsqueda
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (2 de 21)04/12/2006 01:53:57 p.m.
Los agentes auxiliares para las bsquedas en la web son un tipo de programas que operan junto
con los navegadores web y aaden funcionalidades a stos, como el manejo de conceptos, en
lugar de palabras, para recuperar informacin. Flyswat, Kenjin y Zapper son algunos de estos
programas. Otros agentes residen en el cliente web y permiten, por ejemplo, realizar
bsquedas simultneas en varios buscadores, eliminar las ligas muertas (dead links), refinar los
resultados de las bsquedas o acceder a algunos sitios de la web invisible. Copernic, por
ejemplo, es uno de estos agentes.
2. Estrategias de bsqueda en la web
Muchas veces, resulta tan frustrante no encontrar informacin en la web, como confuso
disponer de demasiadas opciones de bsqueda y no saber cmo emprenderla.
A continuacin presento algunas estrategias generales que deben tenerse en cuenta para
utilizar las diferentes herramientas de bsqueda en la web de forma ms rpida y eficiente. Los
rubros bajo los cuales aparecen son orientativos.
Estrategias generales
Usar varios recursos de bsqueda, y no ceirse a uno exclusivamente para todos los tipos
de bsqueda.
Elaborar y mantener una lista propia de buscadores, metabuscadores, directorios, guas y
recursos ms tiles. Guardar la seleccin en un archivo de Favoritos (bookmarks) en nuestra
computadora y/o en un servicio de acceso remoto a favoritos que permita consultar el
archivo desde cualquier computadora con acceso a la web, como Backflip.
Consultar a los bibliotecarios para recibir orientacin sobre estrategias de bsqueda y
localizacin de recursos de informacin en la web, y para obtener documentos.
Seleccin de herramientas
Usar los tutoriales para aprender a seleccionar y utilizar las diferentes herramientas de
bsqueda.
Objetivo de la bsqueda
Usar buscadores o metabuscadores para localizar informacin de la que poseemos datos
especficos.
Usar directorios o guas para explorar reas de inters temtico.
Forma de bsqueda
Usar buscadores o metabuscadores para realizar bsquedas por palabras.
Usar directorios o guas para revisar por categoras.
Especializacin de la bsqueda
Usar metabuscadores para realizar bsquedas generales en muchos buscadores a la vez.
Usar los concentradores o directorios de buscadores para buscar en varios buscadores
especializados.
Precisin de la bsqueda
Seleccionar e instalar en nuestra computadora la versin gratuita de algn motor
avanzado o agente auxiliar para las bsquedas en la web.
Solicitar la adquisicin para uso institucional de la versin completa de algn motor
avanzado o agente auxiliar para las bsquedas en la web.
Mucha informacin recuperada
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (6 de 21)04/12/2006 01:53:57 p.m.
Se compone de pginas que no pueden ser indizadas por limitaciones tcnicas de los
buscadores, como las siguientes:
Pginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas
ejecutables y archivos comprimidos.
Pginas generadas dinmicamente, es decir, que se generan a partir de datos que
introduce el usuario.
Informacin almacenada en bases de datos relacionales, que no puede ser extrada a
menos que se realice una peticin especfica. Otra dificultad consiste en la variable estructura
y diseo de las bases de datos, as como en los diferentes procedimientos de bsqueda.
4. Herramientas de bsqueda en la web profunda
Buscadores
En general, los buscadores han mejorado su desempeo en los ltimos aos, permitiendo un
mayor nivel de precisin en las bsquedas y ofreciendo los resultados en formas cada vez ms
convenientes para el usuario.
Pero por ahora, los buscadores comunes slo pueden recuperar directamente la informacin
que se encuentra disponible en la web y no aquella que se ofrece a travs de la web.
Desde que se empez a hablar de la web invisible los buscadores comunes han aadido
funcionalidades adicionales para la bsqueda en la llamada web profunda y han surgido
buscadores especializados en ese segmento de la web. Estos ltimos permiten la bsqueda
directa de artculos y documentos en texto completo y recuperan archivos PDF o PostScript.
Metabuscadores
Como hemos visto, los metabuscadores pueden presentar limitaciones respecto a las
posibilidades de bsqueda de cada buscador por separado. Por ejemplo, cuando la bsqueda es
sobre materiales o formatos especiales, resulta ms prctico sacar provecho de las opciones
avanzadas de bsqueda de los buscadores y, si es necesario, realizar bsquedas sucesivas en
varios de ellos. En este sentido, son ms recomendables los directorios concentradores de
buscadores.
Directorios
La mayora de los mecanismos que se usan para localizar recursos en la web profunda
consisten en directorios de recursos especializados, principalmente bases de datos disponibles
de forma gratuita en la red. El patrocinio de las instituciones acadmicas en la elaboracin de
los directorios, particularmente de los que son anotados, garantiza la cobertura y calidad de los
recursos compilados.
Guas
Las guas de recursos especializados generalmente estn elaboradas por bibliotecarios y son
una excelente herramienta de bsqueda y localizacin de recursos, adems de constituir un
buen instrumento de aprendizaje en el uso de la informacin.
Tutoriales
Las pginas ya mencionadas How to Choose a Search Engine or Directory de la Universidad
de Albany en Estados Unidos y las guas de SearchAbility y de la Universidad de Leiden en
Holanda A Collection of Special Search Engines incluyen los recursos de informacin y
Recurso
Tipo
About
http://www.about.com/
Gua
AcademicInfo
http://www.academicinfo.net/
Directorio
AlphaSearch
http://www.alphasearch.org/
Directorio de buscadores
Beaucoup
http://www.beaucoup.com/
Directorio de buscadores
Directorio
iBoogie
http://www.iboogie.tv/
Metabuscador
Directorio de buscadores
Collection of Search Engines
http://www.leidenuniv.nl/ub/biv/specials.htm
CompletePlanet
http://www.completeplanet.com/
Directorio
Directorio
Fazzle
http://www.fazzle.com/
Metabuscador
FeedPoint
http://www.quigo.com/feedpoint.htm
Motor avanzado
Fossick
http://fossick.com/
Metabuscador
HotSheet
http://www.hotsheet.com/
Directorio
IncyWincy
http://www.incywincy.com/
Directorio
Infomine
http://infomine.ucr.edu/
Directorio
InternetInvisible
http://www.internetinvisible.com/
Directorio
Internets
http://www.internets.com/
Directorio
InvisibleWeb.com
http://www.invisibleweb.com/
Directorio
Directorio
Ixquick
http://www.ixquick.com/
Metabuscador
Librarians Index
http://lii.org/
Directorio
LibrarySpot
http://www.libraryspot.com/
Gua
Directorio
ProFusion
http://www.profusion.com/
Metabuscador
RefDesk.com
http://refdesk.com/
Directorio
ResearchIndex (CiteSeer)
http://citeseer.nj.nec.com/cs
Buscador
Directorio anotado
Scirus
http://www.scirus.com/
Buscador
Search.Com
http://www.search.com/
Metabuscador
Search4science
http://www.search4science.com/
Motor avanzado
Strategic Finder
http://www.strategicfinder.com/
Motor avanzado
WebData.com
http://www.webdata.com/
Webfile.com
http://webfile.com/
Directorio
WebSearch
http://www.websearch.com.au/
Buscador
Where to Do Research
http://www.wheretodoresearch.com/
Directorio
Metabuscadores
iBoogie
http://www.iboogie.tv/
Fazzle
http://www.fazzle.com/
Fossick
http://fossick.com/
Ixquick
http://www.ixquick.com/
ProFusion
http://www.profusion.com/
Search.Com
http://www.search.com/
Directorios de buscadores
AlphaSearch
http://www.alphasearch.org/
Beaucoup
http://www.beaucoup.com/
Collection of Search Engines
http://www.leidenuniv.nl/ub/biv/specials.htm
Directorios
The Big Hub
http://www.thebighub.com/
CompletePlanet
http://www.completeplanet.com/
Direct Search
http://www.freepint.com/gary/direct.htm
HotSheet
http://www.hotsheet.com/
IncyWincy
http://www.incywincy.com/
Infomine
http://infomine.ucr.edu/
InternetInvisible
http://www.internetinvisible.com/
Internets
http://www.internets.com/
InvisibleWeb.com
http://www.invisibleweb.com/
Invisible Web Directory
http://www.invisible-web.net/
Librarians Index
http://lii.org/
Master Link List On the Internet
http://www.web-friend.com/links/masterlinks.html
RefDesk.com
http://refdesk.com/
Webfile.com
http://webfile.com/
Where to Do Research
http://www.wheretodoresearch.com/
Directorios anotados
AcademicInfo
http://www.academicinfo.net/
Resource Discovery Network
http://www.rdn.ac.uk/
About
http://www.about.com/
LibrarySpot
http://www.libraryspot.com/
Motores avanzados
FeedPoint
http://www.quigo.com/feedpoint.htm
Search4science
http://www.search4science.com/
Strategic Finder
http://www.strategicfinder.com/
nmero de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que
ser limitado. Una pgina web que contiene una imagen, sin mayor informacin textual acerca e
su contenido, no podr ser recuperada automticamente ms que por su extensin (.jpg, por
ejemplo).
Como hemos visto, la definicin ms genrica de lo que constituye la web invisible o profunda
apunta a los recursos que no pueden ser recuperados mediante las herramientas comunes de
bsqueda. Para verificar qu tan visible es la porcin de la web profunda que ha sido
identificada por los autores de The Invisible Web, he seleccionado al azar diez recursos de su
The Invisible Web Directory y he procedido a realizar la bsqueda en un buscador, un
directorio, un metabuscador y un agente metabuscador avanzado en su versin gratuita. Los
resultados de esta sencilla prueba aparecen reflejados en el cuadro de la pgina siguiente.
Resultados de bsqueda de recursos de The Invisible Web Directory
Recurso
MSN
Yahoo!
MetaCrawler
Copernic
Artcyclopedia
SI
SI
SI (6 buscadores) SI (8 buscadores)
CRA Forsythe
List
SI
SI
SI (3 buscadores) SI (5 buscadores)
Current Films in
the Work
(Boxoffice
Hollywood Hot
Set)
Employee
Benefits
INFOSOURCE
SI
SI
SI (3 buscadores) SI (4 buscadores)
SI
SI
SI (2 buscadores) SI (3 buscadores)
Hamnet
SI
SI
SI (4 buscadores) SI (6 buscadores)
Infonation
SI
SI
SI (5 buscadores) SI (7 buscadores)
Jourlit
SI
SI
SI (3 buscadores) SI (7 buscadores)
Scholarly
SI
Societies Project
SI
SI (4 buscadores) SI (6 buscadores)
SI
SI
SI (2 buscadores) SI (6 buscadores)
Vessel
Registration
Query System
Whos who in
SI
SI
SI (6 buscadores) SI (8 buscadores)
American Art
(AskArt)
Vemos que todos los recursos seleccionados de The Invisible Web Directory son localizables
con las actuales herramientas de bsqueda. Adems, en los resultados se observa que existen
mltiples referencias en otras pginas, es decir, que se trata de pginas conectadas. La nica
dificultad para encontrarlas consiste, en algunos casos, en las palabras con las cuales se
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (17 de 21)04/12/2006 01:53:57 p.m.
denomina el sitio o el recurso. Por ejemplo, en el The Invisible Web Directory aparece Vessel
Query Registration System, en lugar de Vessel Registration Query System, lo cual hace que
la bsqueda por todas las palabras sea exitosa, pero la bsqueda por frase no. Igualmente, la
denominacin de Whos who in American Art para el sitio de AskArt, dificulta la
bsqueda, mientras que si se busca directamente por su nombre aparece en numerosos
buscadores. La tabla refleja adems cmo el solapamiento entre buscadores es variable.
Desde luego, se puede decir que el contenido de las bases de datos que estn incluidas en este
directorio es invisible, ya que es necesario realizar las bsquedas directamente en cada una de
ellas. Pero lo cierto es que llegar hasta la puerta de estas bases de datos resulta relativamente
sencillo. El mismo hecho de que el directorio haya sido colocado en la web, le confiere mayor
visibilidad a los recursos incluidos, ya que las ligas en el directorio aumentan la posibilidad de
indizacin de esas pginas. Entonces, podemos decir que The Invisible Web Directory es un
buen directorio de recursos y bases de datos disponibles en la web, pero no un directorio de
recursos invisibles.
En conclusin, lo que realmente sigue siendo invisible en la web son:
-- las pginas desconectadas;
-- las pginas no clasificadas que contienen principalmente imgenes, audio
o vdeo;
-- las pginas no clasificadas que contienen principalmente archivos PDF,
PostScript, Flash, Shockwave, ejecutables y comprimidos;
-- el contenido de las bases de datos relacionales;
-- el contenido que se genera en tiempo real;
-- el contenido que se genera dinmicamente.
Pero:
-- algunos buscadores recuperan archivos PDF y pginas con imgenes,
aunque de forma limitada;
-- es relativamente sencillo llegar hasta la puerta de las bases de datos con
contenido importante;
-- existen ya motores avanzados capaces de realizar bsquedas directas
simultneas en varias bases de datos a la vez; y aunque la mayora requieren de
pago, tambin ofrecen versiones gratuitas;
-- el contenido que se genera en tiempo real pierde validez con mucha
velocidad, salvo para anlisis histricos;
-- es relativamente sencillo llegar hasta la puerta de los servicios que
ofrecen informacin en tiempo real;
-- el contenido que se genera dinmicamente interesa nicamente a ciertos
usuarios con caractersticas especficas;
-- es relativamente sencillo llegar hasta la puerta de los servicios que
ofrecen contenido generado dinmicamente.
8. Bibliografa
14. Daz, Karen R. The Invisible Web: Navigating the Web outside Traditional
Search Engines. Reference & User Services Quarterly. 2000; 40(2):131-134.
15. Ellsworth, Jill and Ellsworth, Matthew V. Marketing on the Internet :
Multimedia Strategies for the World Wide Web. New York: John Wiley & Sons;
1995.
16. Koster, Martijn. Robots in the Web: threat or treat? [Pgina Web]. 1997;
Consultada 2003 Mayo 16. Disponible en: http://www.robotstxt.org/wc/threatortreat.html.
17. O'Neill, Edward T.; Lavoie, Brian F., and Bennett, Rick. Trends in the
Evolution of the Public Web: 1998-2002. D-Lib Magazine. 2003; 9(4).
18. Ouf, Rehib. Le Dynamisme du World Wide Web: Taille, Croissance,
Visibilit, Distribution et Accessibilit de l'Information. Lyon, France: Ecole
Nationale Suprieure des Sciences de l'Information et des Bibliothques; 2001.
19. Salazar Garca, Idoia. La Red profunda: lo que los buscadores
convencionales no encuentran. En: Fernndez Muerza, Alex and Dantart Usn,
Alex, Coordinacin. Congreso ONLINE del Observatorio para la CiberSociedad;
Espaa.
Comunicaciones - Grupo 20: Periodismo y Comunicacin Digital
20.
21.
22. Sherman, Chris and Price, Gary. The invisible Web. Searcher. 2001; 8
(9):62-74.
23. ---. The invisible Web: Uncovering information sources search engines can't
see. Medford, New Jersey: CyberAge Books; Information Today; 2001.
24. Sullivan, Danny. Invisible Web Gets Deeper. The Search Engine Report.
2000.
25. Turner, Laura. Doing it Deeper: The Deep Web [Pgina Web]. Consultada
2003 Mayo 2. Disponible en: http://www.bhsu.edu/education/edfaculty/lturner/
The%20Deep%20Web%20article1.doc
26. Warnick, Walter L; Lederman, Abe; Scott, R. L.; Spence, Karen J.;
Johnson, Lorrie A., and Allen, Valerie S. Searching the Deep Web: Directed
Query Engine Applications at the Department of Energy. D-Lib Magazine. 2001;
7(1).
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (20 de 21)04/12/2006 01:53:57 p.m.
27. Wiseman, Ken . The invisible Web [Pgina Web]. Consultada 2002 Mayo
5. Disponible en: http://www3.dist214,k12.il.us/invisible/article/invisiblearticle.
html