Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Web Invisible PDF
Web Invisible PDF
Resumen
Se denomina web invisible o profunda a la informacin que no puede recuperarse con los mecanismos
de bsqueda comunes. Estos mecanismos tratan de abarcar toda la web, pero se calcula que los
mayores motores de bsqueda alcanzan a indizar slo entre un tercio y la mitad de los documentos
disponibles. La web invisible no slo es de mayor tamao que la web visible o superficial sino que
crece a mayor velocidad. Asimismo, mucha informacin disponible en la web profunda, como la que se
encuentra en bases de datos, tiene un alto valor potencial para el usuario.
La multiplicidad de mecanismos de rastreo, indizacin, recuperacin y organizacin de documentos en
la web puede causar confusin al usuario comn. Adems, el nmero de motores de bsqueda, as
como los hbridos resultado de la combinacin de diferentes mecanismos, ha aumentado. Esto hace
necesario clasificar y diferenciar los tipos de herramientas disponibles.
En este documento recomiendo algunas estrategias tiles para la bsqueda en la web y presento una
compilacin de recursos de bsqueda en la web invisible o profunda.
Tabla de contenido
Introduccin
1. Mecanismos de bsqueda en la web
Buscadores
Metabuscadores
Directorios
Guas
Tutoriales
Software especializado
Estrategias generales
Seleccin de herramientas
Objetivo de la bsqueda
Forma de bsqueda
Especializacin de la bsqueda
Precisin de la bsqueda
Mucha informacin recuperada
Seleccin de recursos
La web opaca
La web privada
La web propietaria
Buscadores
Metabuscadores
Directorios
Guas
Tutoriales
Motores avanzados
Informacin especializada
Bsquedas avanzadas
Evaluacin de la informacin
La web opaca
La web privada
La web propietaria
8. Bibliografa
Introduccin
El trmino web invisible fue utilizado por primera vez por la Dra. Jill Ellsworth para
denominar la informacin que resultaba invisible para las maquinarias de bsqueda
Los agentes auxiliares para las bsquedas en la web son un tipo de programas que operan junto
con los navegadores web y aaden funcionalidades a stos, como el manejo de conceptos, en
lugar de palabras, para recuperar informacin. Flyswat, Kenjin y Zapper son algunos de estos
programas. Otros agentes residen en el cliente web y permiten, por ejemplo, realizar
bsquedas simultneas en varios buscadores, eliminar las ligas muertas (dead links), refinar los
resultados de las bsquedas o acceder a algunos sitios de la web invisible. Copernic, por
ejemplo, es uno de estos agentes.
2. Estrategias de bsqueda en la web
Muchas veces, resulta tan frustrante no encontrar informacin en la web, como confuso
disponer de demasiadas opciones de bsqueda y no saber cmo emprenderla.
A continuacin presento algunas estrategias generales que deben tenerse en cuenta para
utilizar las diferentes herramientas de bsqueda en la web de forma ms rpida y eficiente. Los
rubros bajo los cuales aparecen son orientativos.
Estrategias generales
Usar varios recursos de bsqueda, y no ceirse a uno exclusivamente para todos los tipos
de bsqueda.
Elaborar y mantener una lista propia de buscadores, metabuscadores, directorios, guas y
recursos ms tiles. Guardar la seleccin en un archivo de Favoritos (bookmarks) en nuestra
computadora y/o en un servicio de acceso remoto a favoritos que permita consultar el
archivo desde cualquier computadora con acceso a la web, como Backflip.
Consultar a los bibliotecarios para recibir orientacin sobre estrategias de bsqueda y
localizacin de recursos de informacin en la web, y para obtener documentos.
Seleccin de herramientas
Usar los tutoriales para aprender a seleccionar y utilizar las diferentes herramientas de
bsqueda.
Objetivo de la bsqueda
Usar buscadores o metabuscadores para localizar informacin de la que poseemos datos
especficos.
Usar directorios o guas para explorar reas de inters temtico.
Forma de bsqueda
Usar buscadores o metabuscadores para realizar bsquedas por palabras.
Usar directorios o guas para revisar por categoras.
Especializacin de la bsqueda
Usar metabuscadores para realizar bsquedas generales en muchos buscadores a la vez.
Usar los concentradores o directorios de buscadores para buscar en varios buscadores
especializados.
Precisin de la bsqueda
Seleccionar e instalar en nuestra computadora la versin gratuita de algn motor
avanzado o agente auxiliar para las bsquedas en la web.
Solicitar la adquisicin para uso institucional de la versin completa de algn motor
avanzado o agente auxiliar para las bsquedas en la web.
Mucha informacin recuperada
Se compone de pginas que no pueden ser indizadas por limitaciones tcnicas de los
buscadores, como las siguientes:
Pginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas
ejecutables y archivos comprimidos.
Pginas generadas dinmicamente, es decir, que se generan a partir de datos que
introduce el usuario.
Informacin almacenada en bases de datos relacionales, que no puede ser extrada a
menos que se realice una peticin especfica. Otra dificultad consiste en la variable estructura
y diseo de las bases de datos, as como en los diferentes procedimientos de bsqueda.
4. Herramientas de bsqueda en la web profunda
Buscadores
En general, los buscadores han mejorado su desempeo en los ltimos aos, permitiendo un
mayor nivel de precisin en las bsquedas y ofreciendo los resultados en formas cada vez ms
convenientes para el usuario.
Pero por ahora, los buscadores comunes slo pueden recuperar directamente la informacin
que se encuentra disponible en la web y no aquella que se ofrece a travs de la web.
Desde que se empez a hablar de la web invisible los buscadores comunes han aadido
funcionalidades adicionales para la bsqueda en la llamada web profunda y han surgido
buscadores especializados en ese segmento de la web. Estos ltimos permiten la bsqueda
directa de artculos y documentos en texto completo y recuperan archivos PDF o PostScript.
Metabuscadores
Como hemos visto, los metabuscadores pueden presentar limitaciones respecto a las
posibilidades de bsqueda de cada buscador por separado. Por ejemplo, cuando la bsqueda es
sobre materiales o formatos especiales, resulta ms prctico sacar provecho de las opciones
avanzadas de bsqueda de los buscadores y, si es necesario, realizar bsquedas sucesivas en
varios de ellos. En este sentido, son ms recomendables los directorios concentradores de
buscadores.
Directorios
La mayora de los mecanismos que se usan para localizar recursos en la web profunda
consisten en directorios de recursos especializados, principalmente bases de datos disponibles
de forma gratuita en la red. El patrocinio de las instituciones acadmicas en la elaboracin de
los directorios, particularmente de los que son anotados, garantiza la cobertura y calidad de los
recursos compilados.
Guas
Las guas de recursos especializados generalmente estn elaboradas por bibliotecarios y son
una excelente herramienta de bsqueda y localizacin de recursos, adems de constituir un
buen instrumento de aprendizaje en el uso de la informacin.
Tutoriales
Motores avanzados
Finalmente, los recientes motores de pregunta dirigida (directed query engines) tienen la
capacidad de realizar bsquedas simultneas en varias bases de datos en la web. Lexibot y su
sucesor, Deep Query Manager, as como Distributed Explorer (Warnick y otros, 2001) y
FeedPoint, son ejemplos de estos motores avanzados de bsqueda.
5. Estrategias de bsqueda en la web profunda
Adems de las estrategias ya sealadas para la bsqueda en la web, podemos aadir otras
especficas para la bsqueda en la web profunda o invisible, agrupadas en rubros orientativos.
Informacin especializada
Usar las herramientas de bsqueda en la web profunda si buscamos informacin
acadmica de calidad.
Usar buscadores regionales especializados para localizar informacin originada fuera de
los Estados Unidos o en idiomas diferentes al ingls.
Usar metabuscadores para realizar bsquedas en varios buscadores especializados a la
vez.
Bsquedas avanzadas
Usar las opciones avanzadas de los buscadores para localizar imgenes o archivos PDF o
PostScript.
Usar directorios concentradores de buscadores para realizar bsquedas avanzadas
sucesivas en varios de ellos.
Evaluacin de la informacin
Usar directorios anotados para evaluar si los recursos disponibles en la web profunda son
tiles para la bsqueda que estamos realizando.
Usar directorios de bases de datos para conocer cules de ellas pueden ofrecernos
informacin til para nuestras bsquedas.
Informacin en bases de datos
Usar guas, directorios o motores avanzados si la informacin que buscamos puede estar
en una base de datos.
6. Compilacin de recursos de bsqueda en la web profunda
A continuacin presentar una compilacin de recursos de bsqueda en la web profunda, que
considero que pueden ser de utilidad para los usuarios acadmicos universitarios. Dada la
importancia de distinguir entre tipos de recursos para seleccionar el tipo de bsqueda a
realizar, los presento clasificados segn su funcionalidad, como buscadores, metabuscadores,
directorios, guas y motores avanzados, primero ordenados alfabticamente y luego por tipo.
ordenados alfabticamente
Recurso Tipo
About Gua
http://www.about.com/
AcademicInfo Directorio
http://www.academicinfo.net/
AlphaSearch Directorio de buscadores
http://www.alphasearch.org/
Beaucoup Directorio de buscadores
http://www.beaucoup.com/
The Big Hub Directorio
http://www.thebighub.com/
iBoogie
http://www.iboogie.tv/ Metabuscador
Collection of Search Engines Directorio de buscadores
http://www.leidenuniv.nl/ub/biv/specials.htm
CompletePlanet Directorio
http://www.completeplanet.com/
Deep Query Manager (sustituye a Lexibot) Motor avanzado
http://brightplanet.com/news/dqm2.asp
Direct Search Directorio
http://www.freepint.com/gary/direct.htm
Fazzle Metabuscador
http://www.fazzle.com/
FeedPoint Motor avanzado
http://www.quigo.com/feedpoint.htm
Fossick Metabuscador
http://fossick.com/
HotSheet Directorio
http://www.hotsheet.com/
IncyWincy Directorio
http://www.incywincy.com/
Infomine Directorio
http://infomine.ucr.edu/
InternetInvisible Directorio
http://www.internetinvisible.com/
Internets Directorio
http://www.internets.com/
InvisibleWeb.com Directorio
http://www.invisibleweb.com/
Invisible Web Directory Directorio
http://www.invisible-web.net/
Ixquick Metabuscador
http://www.ixquick.com/
Librarians Index Directorio
http://lii.org/
LibrarySpot Gua
http://www.libraryspot.com/
Master Link List On the Internet Directorio
http://www.web-friend.com/links/
masterlinks.html
ProFusion Metabuscador
http://www.profusion.com/
RefDesk.com Directorio
http://refdesk.com/
ResearchIndex (CiteSeer) Buscador
http://citeseer.nj.nec.com/cs
Resource Discovery Network Directorio anotado
http://www.rdn.ac.uk/
Scirus Buscador
http://www.scirus.com/
Search.Com Metabuscador
http://www.search.com/
Search4science Motor avanzado
http://www.search4science.com/
Strategic Finder Motor avanzado
http://www.strategicfinder.com/
WebData.com Directorio de bases de datos
http://www.webdata.com/
Webfile.com Directorio
http://webfile.com/
WebSearch Buscador
http://www.websearch.com.au/
Where to Do Research Directorio
http://www.wheretodoresearch.com/
Scirus
http://www.scirus.com/
WebSearch
http://www.websearch.com.au/
Metabuscadores iBoogie
http://www.iboogie.tv/
Fazzle
http://www.fazzle.com/
Fossick
http://fossick.com/
Ixquick
http://www.ixquick.com/
ProFusion
http://www.profusion.com/
Search.Com
http://www.search.com/
Beaucoup
http://www.beaucoup.com/
Directorios
The Big Hub
http://www.thebighub.com/
CompletePlanet
http://www.completeplanet.com/
Direct Search
http://www.freepint.com/gary/direct.htm
HotSheet
http://www.hotsheet.com/
IncyWincy
http://www.incywincy.com/
Infomine
http://infomine.ucr.edu/
InternetInvisible
http://www.internetinvisible.com/
Internets
http://www.internets.com/
InvisibleWeb.com
http://www.invisibleweb.com/
Librarians Index
http://lii.org/
RefDesk.com
http://refdesk.com/
Webfile.com
http://webfile.com/
Where to Do Research
http://www.wheretodoresearch.com/
Guas About
http://www.about.com/
LibrarySpot
http://www.libraryspot.com/
FeedPoint
http://www.quigo.com/feedpoint.htm
Search4science
http://www.search4science.com/
Strategic Finder
http://www.strategicfinder.com/
La web opaca
No cabe duda de que los actuales buscadores y directorios de la web estn mejorando su
funcionamiento. Ms all de los detalles tcnicos que el pblico no alcanza a ver, la eficiencia
de estas maquinarias ha aumentado y esto se aprecia en los resultados de las bsquedas. A
medida que estas herramientas se vayan haciendo ms poderosas disminuir la necesidad de la
elaboracin manual de guas o concentradores de recursos y quizs ms la de orientacin en
las estrategias de bsqueda y en el uso y aprovechamiento de los recursos localizados.
Un observador cuidadoso puede apreciar que persiste la prctica de los robots de no indizar
todas las pginas de un sitio, fijndose en los resultados de las bsquedas que arrojan las
diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos,
disponible a travs de un sitio web, en una de las pginas del sitio que contiene una liga a ella,
y no aparecer, en cambio, la referencia a la pgina de acceso directo a la base de datos en ese
sitio.
La frecuencia de la indizacin puede haber aumentado en algunos buscadores, o incluso
hacerse de forma diferenciada para algunos recursos. Aquellas pginas que, por su naturaleza,
varan ms (por ejemplo, la informacin burstil) seran visitadas ms frecuentemente por los
robots que aquellas que tienden a ser ms estables en su contenido.
El nmero mximo de resultados visibles no es un problema cuando los buscadores presentan
los resultados ordenados por relevancia, pues siempre aparecern primero aquellos que se
ajustan ms a la bsqueda realizada. En la medida en que se pueda realizar una bsqueda
avanzada y los criterios de relevancia combinen el nmero de ligas con la frecuencia de
palabras, la presentacin de los resultados no constituir un obstculo para encontrar la
informacin. El usuario siempre debe tener en cuenta que los buscadores son ms apropiados
cuando la bsqueda es especfica, es decir, se conocen datos sobre lo que se busca; mientras
que es ms adecuado realizar bsquedas temticas en los directorios.
Los URLs desconectados podran evitarse si existiera la obligacin de registrar, aunque fuera
de forma muy sencilla, toda pgina que se colgara en la web. Pero dada la gran
descentralizacin de Internet, esto no parece vislumbrarse en un futuro inmediato.
La web privada
Este segmento de la web no representa una gran prdida en trminos de valor de la
nmero de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que
ser limitado. Una pgina web que contiene una imagen, sin mayor informacin textual acerca e
su contenido, no podr ser recuperada automticamente ms que por su extensin (.jpg, por
ejemplo).
Como hemos visto, la definicin ms genrica de lo que constituye la web invisible o profunda
apunta a los recursos que no pueden ser recuperados mediante las herramientas comunes de
bsqueda. Para verificar qu tan visible es la porcin de la web profunda que ha sido
identificada por los autores de The Invisible Web, he seleccionado al azar diez recursos de su
The Invisible Web Directory y he procedido a realizar la bsqueda en un buscador, un
directorio, un metabuscador y un agente metabuscador avanzado en su versin gratuita. Los
resultados de esta sencilla prueba aparecen reflejados en el cuadro de la pgina siguiente.
Resultados de bsqueda de recursos de The Invisible Web Directory
Recurso MSN Yahoo! MetaCrawler Copernic
Artcyclopedia SI SI SI (6 buscadores) SI (8 buscadores)
CRA Forsythe SI SI SI (3 buscadores) SI (5 buscadores)
List
Current Films in SI SI SI (3 buscadores) SI (4 buscadores)
the Work
(Boxoffice
Hollywood Hot
Set)
Employee SI SI SI (2 buscadores) SI (3 buscadores)
Benefits
INFOSOURCE
Hamnet SI SI SI (4 buscadores) SI (6 buscadores)
Infonation SI SI SI (5 buscadores) SI (7 buscadores)
Jourlit SI SI SI (3 buscadores) SI (7 buscadores)
Scholarly SI SI SI (4 buscadores) SI (6 buscadores)
Societies Project
Vessel SI SI SI (2 buscadores) SI (6 buscadores)
Registration
Query System
Whos who in SI SI SI (6 buscadores) SI (8 buscadores)
American Art
(AskArt)
Vemos que todos los recursos seleccionados de The Invisible Web Directory son localizables
con las actuales herramientas de bsqueda. Adems, en los resultados se observa que existen
mltiples referencias en otras pginas, es decir, que se trata de pginas conectadas. La nica
dificultad para encontrarlas consiste, en algunos casos, en las palabras con las cuales se
denomina el sitio o el recurso. Por ejemplo, en el The Invisible Web Directory aparece Vessel
Query Registration System, en lugar de Vessel Registration Query System, lo cual hace que
la bsqueda por todas las palabras sea exitosa, pero la bsqueda por frase no. Igualmente, la
denominacin de Whos who in American Art para el sitio de AskArt, dificulta la
bsqueda, mientras que si se busca directamente por su nombre aparece en numerosos
buscadores. La tabla refleja adems cmo el solapamiento entre buscadores es variable.
Desde luego, se puede decir que el contenido de las bases de datos que estn incluidas en este
directorio es invisible, ya que es necesario realizar las bsquedas directamente en cada una de
ellas. Pero lo cierto es que llegar hasta la puerta de estas bases de datos resulta relativamente
sencillo. El mismo hecho de que el directorio haya sido colocado en la web, le confiere mayor
visibilidad a los recursos incluidos, ya que las ligas en el directorio aumentan la posibilidad de
indizacin de esas pginas. Entonces, podemos decir que The Invisible Web Directory es un
buen directorio de recursos y bases de datos disponibles en la web, pero no un directorio de
recursos invisibles.
En conclusin, lo que realmente sigue siendo invisible en la web son:
-- las pginas desconectadas;
-- las pginas no clasificadas que contienen principalmente imgenes, audio
o vdeo;
-- las pginas no clasificadas que contienen principalmente archivos PDF,
PostScript, Flash, Shockwave, ejecutables y comprimidos;
-- el contenido de las bases de datos relacionales;
-- el contenido que se genera en tiempo real;
-- el contenido que se genera dinmicamente.
Pero:
-- algunos buscadores recuperan archivos PDF y pginas con imgenes,
aunque de forma limitada;
-- es relativamente sencillo llegar hasta la puerta de las bases de datos con
contenido importante;
-- existen ya motores avanzados capaces de realizar bsquedas directas
simultneas en varias bases de datos a la vez; y aunque la mayora requieren de
pago, tambin ofrecen versiones gratuitas;
-- el contenido que se genera en tiempo real pierde validez con mucha
velocidad, salvo para anlisis histricos;
-- es relativamente sencillo llegar hasta la puerta de los servicios que
ofrecen informacin en tiempo real;
-- el contenido que se genera dinmicamente interesa nicamente a ciertos
usuarios con caractersticas especficas;
-- es relativamente sencillo llegar hasta la puerta de los servicios que
ofrecen contenido generado dinmicamente.
8. Bibliografa
2. The Deep Web [Pgina Web]. 2002; Consultada 2003 Mayo 6. Disponible
en: http://library.albany.edu/internet/deepweb.html.
University at Albany Libraries. Internet tutorials
5. Invisible Web: What it is, Why it exists, How to find it, and Its inherent
ambiguity [Pgina Web]. Consultada 2003 Mayo 5. Disponible en: http;//www.
lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html.
UC Berkeley. Teaching Library Internet Workshops. Finding information on the
Internet: a tutorial.
9. What is Fast? [Pgina Web]. Consultada 2003 Mayo 13. Disponible en:
http://www.lexibot.com/howitworks/whatisfast.asp
10. The WWW Virtual Library [Pgina Web]. Consultada 2003 Abr 24.
Disponible en: http://www.vlib.org/
11. Bergman, Michael K. The Deep Web: Surfacing Hidden Value. Bright
Planet; 2000.
12. Botluk, Diana. Minig Deeper Into the Invisible Web . Law Library
Resource Xchange; 2000.
Features.
14. Daz, Karen R. The Invisible Web: Navigating the Web outside Traditional
Search Engines. Reference & User Services Quarterly. 2000; 40(2):131-134.
16. Koster, Martijn. Robots in the Web: threat or treat? [Pgina Web]. 1997;
Consultada 2003 Mayo 16. Disponible en: http://www.robotstxt.org/wc/threat-
ortreat.html.
17. O'Neill, Edward T.; Lavoie, Brian F., and Bennett, Rick. Trends in the
Evolution of the Public Web: 1998-2002. D-Lib Magazine. 2003; 9(4).
20. Sherman, Chris. The Invisible Web. Free Pint. 2000; (64).
22. Sherman, Chris and Price, Gary. The invisible Web. Searcher. 2001; 8
(9):62-74.
23. ---. The invisible Web: Uncovering information sources search engines can't
see. Medford, New Jersey: CyberAge Books; Information Today; 2001.
24. Sullivan, Danny. Invisible Web Gets Deeper. The Search Engine Report.
2000.
25. Turner, Laura. Doing it Deeper: The Deep Web [Pgina Web]. Consultada
2003 Mayo 2. Disponible en: http://www.bhsu.edu/education/edfaculty/lturner/
The%20Deep%20Web%20article1.doc
26. Warnick, Walter L; Lederman, Abe; Scott, R. L.; Spence, Karen J.;
Johnson, Lorrie A., and Allen, Valerie S. Searching the Deep Web: Directed
Query Engine Applications at the Department of Energy. D-Lib Magazine. 2001;
7(1).
27. Wiseman, Ken . The invisible Web [Pgina Web]. Consultada 2002 Mayo
5. Disponible en: http://www3.dist214,k12.il.us/invisible/article/invisiblearticle.
html